論文の概要: Improving Natural Language Processing Tasks with Human Gaze-Guided
Neural Attention
- arxiv url: http://arxiv.org/abs/2010.07891v2
- Date: Tue, 27 Oct 2020 16:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:57:44.689547
- Title: Improving Natural Language Processing Tasks with Human Gaze-Guided
Neural Attention
- Title(参考訳): 視線誘導型ニューラルアテンションによる自然言語処理タスクの改善
- Authors: Ekta Sood, Simon Tannert, Philipp Mueller, Andreas Bulling
- Abstract要約: コーパスの欠如は、人間の視線データを神経的注意機構の監視信号として統合する上で、これまで限られた進歩を遂げてきた。
本稿では,読解の認知モデルと人間の視線監督を併用したハイブリッドテキスト・サリエンシ・モデルを提案する。
我々の研究は、データ駆動型モデルと認知モデルの間のブリッジングのための実践的なアプローチを導入し、人間の視線誘導型ニューラルアテンションをNLPタスクに統合する新しい方法を示す。
- 参考スコア(独自算出の注目度): 14.940723222424749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lack of corpora has so far limited advances in integrating human gaze data
as a supervisory signal in neural attention mechanisms for natural language
processing(NLP). We propose a novel hybrid text saliency model(TSM) that, for
the first time, combines a cognitive model of reading with explicit human gaze
supervision in a single machine learning framework. On four different corpora
we demonstrate that our hybrid TSM duration predictions are highly correlated
with human gaze ground truth. We further propose a novel joint modeling
approach to integrate TSM predictions into the attention layer of a network
designed for a specific upstream NLP task without the need for any
task-specific human gaze data. We demonstrate that our joint model outperforms
the state of the art in paraphrase generation on the Quora Question Pairs
corpus by more than 10% in BLEU-4 and achieves state of the art performance for
sentence compression on the challenging Google Sentence Compression corpus. As
such, our work introduces a practical approach for bridging between data-driven
and cognitive models and demonstrates a new way to integrate human gaze-guided
neural attention into NLP tasks.
- Abstract(参考訳): コーパスの欠如は、自然言語処理(NLP)の神経的注意機構において、人間の視線データを監視信号として統合する進歩に限界がある。
そこで本研究では,1つの機械学習フレームワークにおいて,読解の認知モデルと明示的な人間の視線監督を組み合わせた新しいハイブリッドテキストサリエンシーモデル(tsm)を提案する。
4つの異なるコーパスにおいて、我々のハイブリッドTSM持続時間予測は、ヒトの視線基底真理と非常に相関していることを示す。
さらに,タスク固有の人間の視線データを必要としない上流nlpタスク用に設計されたネットワークの注意層にtsm予測を統合するための新しい共同モデリング手法を提案する。
提案手法は,google文圧縮コーパスにおいて,クオーラ質問対コーパス上での文圧縮性能を10%以上向上させることで,パラフレーゼ生成時の文圧縮性能を上回ることを実証する。
そこで本研究では,データ駆動型と認知モデル間のブリッジングの実践的アプローチを導入し,人間の視線誘導型ニューラルアテンションをNLPタスクに統合する方法を実証した。
関連論文リスト
- Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Synthesizing Human Gaze Feedback for Improved NLP Performance [20.837790838762036]
ScanTextGANは、テキスト上で人間のスキャンパスを生成するための新しいモデルである。
ScanTextGANにより生成されたスキャンパスは、人間の視線パターンにおいて有意な認知信号に近似できることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:34:23Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。