論文の概要: Co-occurrence is not Factual Association in Language Models
- arxiv url: http://arxiv.org/abs/2409.14057v1
- Date: Sat, 21 Sep 2024 08:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:55:36.770480
- Title: Co-occurrence is not Factual Association in Language Models
- Title(参考訳): 共起は言語モデルにおけるファクチュアル・アソシエーションではない
- Authors: Xiao Zhang, Miao Li, Ji Wu,
- Abstract要約: 言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。
本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 19.708303468664088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models can encode a large amount of knowledge and utilize it for various reasoning tasks, yet they can still struggle to learn novel factual knowledge effectively from finetuning on limited textual demonstrations. In this work, we show that the reason for this deficiency is that language models are biased to learn word co-occurrence statistics instead of true factual associations. We identify the differences between two forms of knowledge representation in language models: knowledge in the form of co-occurrence statistics is encoded in the middle layers of the transformer model and does not generalize well to reasoning scenarios beyond simple question answering, while true factual associations are encoded in the lower layers and can be freely utilized in various reasoning tasks. Based on these observations, we propose two strategies to improve the learning of factual associations in language models. We show that training on text with implicit rather than explicit factual associations can force the model to learn factual associations instead of co-occurrence statistics, significantly improving the generalization of newly learned knowledge. We also propose a simple training method to actively forget the learned co-occurrence statistics, which unblocks and enhances the learning of factual associations when training on plain narrative text. On both synthetic and real-world corpora, the two proposed strategies improve the generalization of the knowledge learned during finetuning to reasoning scenarios such as indirect and multi-hop question answering.
- Abstract(参考訳): 事前訓練された言語モデルは、大量の知識をエンコードし、様々な推論タスクに利用することができるが、限られたテキストのデモンストレーションを微調整することで、新しい事実知識を効果的に学習することは困難である。
本研究は, 言語モデルが真の事実関連性ではなく, 単語共起統計学に偏りがあることを示唆する。
共起統計の形式での知識はトランスフォーマーモデルの中間層に符号化され、単純な質問応答以上の推論シナリオにうまく一般化せず、真の事実関連は下層に符号化され、様々な推論タスクで自由に利用することができる。
これらの観測に基づいて,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
我々は,暗黙的な事実関連よりも暗黙的なテキストによる学習が,共起統計よりも事実関連を学習させ,新たに学習した知識の一般化を著しく向上させることを示した。
また、学習した共起統計を積極的に忘れる簡単な学習法を提案し、これは、平易な物語テキストによる学習において、事実関係の学習をブロックし、強化する。
合成コーパスと実世界のコーパスでは, 微調整時に学んだ知識を, 間接質問応答やマルチホップ質問応答などの推論シナリオに一般化する手法が提案されている。
関連論文リスト
- BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models [19.446333438385153]
本稿では,知識グラフを付加した言語モデルに対する新たな攻撃手法を提案する。
我々は、自然言語のステレオタイプを知識グラフに誘導し、敵攻撃戦略を使用する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
論文 参考訳(メタデータ) (2024-05-08T01:51:29Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Logic Against Bias: Textual Entailment Mitigates Stereotypical Sentence
Reasoning [8.990338162517086]
一般的な文表現モデルに存在している異なるコミュニティに関するいくつかのステレオタイプについて述べる。
テキスト類似性に基づく強い事前学習モデルとテキスト共用学習を比較することで、テキスト共用による明示的な論理学習はバイアスを著しく減らすことができると結論付けている。
論文 参考訳(メタデータ) (2023-03-10T02:52:13Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。