論文の概要: Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention
- arxiv url: http://arxiv.org/abs/2104.08142v1
- Date: Fri, 16 Apr 2021 14:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:35:34.334105
- Title: Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention
- Title(参考訳): 人間の触覚による自然言語推論:人間の説明を用いてモデル注意をガイドする
- Authors: Joe Stacey, Yonatan Belinkov and Marek Rei
- Abstract要約: 人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
- 参考スコア(独自算出の注目度): 39.41947934589526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Inference (NLI) models are known to learn from biases and
artefacts within their training data, impacting how well the models generalise
to other unseen datasets. While previous de-biasing approaches focus on
preventing models learning from these biases, we instead provide models with
information about how a human would approach the task, with the aim of
encouraging the model to learn features that will generalise better to
out-of-domain datasets. Using natural language explanations, we supervise a
model's attention weights to encourage more attention to be paid to the words
present in these explanations. For the first time, we show that training with
human generated explanations can simultaneously improve performance both
in-distribution and out-of-distribution for NLI, whereas most related work on
robustness involves a trade-off between the two. Training with the human
explanations encourages models to attend more broadly across the sentences,
paying more attention to words in the premise and less attention to stop-words
and punctuation. The supervised models attend to words humans believe are
important, creating more robust and better performing NLI models.
- Abstract(参考訳): 自然言語推論(NLI)モデルは、トレーニングデータ内のバイアスやアーティファクトから学習することで知られ、モデルが他の目に見えないデータセットにどのように一般化するかに影響を与える。
従来のデバイアスアプローチでは、これらのバイアスからモデルを学ぶことを防ぐことに注力していますが、代わりに、ドメイン外データセットよりも優れた機能を学ぶようにモデルに促すことを目的として、人間がどのようにタスクにアプローチするかに関する情報をモデルに提供するのです。
自然言語説明を用いてモデルの注意重みを監督し,これらの説明に含まれる単語により多くの注意を払うように促す。
人為的な説明によるトレーニングは,NLIの流通と流通の両面を同時に改善できることを示す一方,ロバスト性に関するほとんどの研究は,両者のトレードオフを伴っている。
人間の説明による訓練は、モデルが文章全体にわたってより幅広い参加を奨励し、前提における単語により多くの注意を払うとともに、停止語や句読点への注意を減らす。
教師付きモデルは人間が信じる言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。