論文の概要: Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge
- arxiv url: http://arxiv.org/abs/2602.02470v1
- Date: Mon, 02 Feb 2026 18:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.381972
- Title: Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge
- Title(参考訳): 自己回帰型言語モデルの逆曲線をアイデンティティブリッジで破る
- Authors: Xutao Ma, Yixiao Huang, Hanlin Zhu, Somayeh Sojoudi,
- Abstract要約: 本研究では,一層変圧器でも勾配降下の暗黙バイアスを解析することにより,逆の呪いを破ることができることを示す。
我々の研究は、逆の呪いの新たな理論基盤を提供し、データからより高いレベルのルールを学ぶことをLLMに奨励する原則的かつ低コストな経路を提供する。
- 参考スコア(独自算出の注目度): 16.509342332774747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive large language models (LLMs) have achieved remarkable success in many complex tasks, yet they can still fail in very simple logical reasoning such as the "reversal curse" -- when trained on forward knowledge data of the form "$A \rightarrow B$" (e.g., Alice's husband is Bob), the model is unable to deduce the reversal knowledge "$B \leftarrow A$" (e.g., Bob's wife is Alice) during test. Extensive prior research suggests that this failure is an inherent, fundamental limit of autoregressive causal LLMs, indicating that these models tend to memorize factual-level knowledge rather than capture higher-level rules. In this paper, we challenge this view by showing that this seemingly fundamental limit can be mitigated by slightly tweaking the training data with a simple regularization data recipe called the Identity Bridge of the form "$A \to A$" (e.g., The name of Alice is Alice). Theoretically, we prove that under this recipe, even a one-layer transformer can break the reversal curse by analyzing the implicit bias of gradient descent. Empirically, we show that a 1B pretrained language model finetuned with the proposed data recipe achieves a 40% success rate on reversal tasks, in stark contrast to a near-zero success rate when trained solely on forward-knowledge data. Our work provides a novel theoretical foundation for the reversal curse and offers a principled, low-cost path to encouraging LLMs to learn higher-level rules from data.
- Abstract(参考訳): 自己回帰的大言語モデル(LLM)は、多くの複雑なタスクにおいて顕著に成功したが、"逆の呪い"のような非常に単純な論理的推論で失敗する可能性がある -- "A \rightarrow B$" (e g , Alice の夫は Bob) という形式の事前知識データに基づいて訓練された場合、このモデルは、テスト中に"B \leftarrow A$" (e g , Bob の妻は Alice ) という逆の知識を推論することができない。この失敗は自己回帰的因果的 LLM の本質的な限界であり、これらのモデルが高レベルなルールをキャプチャするよりも、事実レベルの知識を記憶する傾向があることを示唆している。本論文では、このモデルが基本的には、"A "A "A " と A "A " は A" という名前である。
理論的には、このレシピの下では、一層変圧器でさえ勾配降下の暗黙バイアスを解析することにより、逆の呪いを破ることができることが証明されている。
実験により,提案したデータレシピを微調整した1B言語モデルが,フォワード知識データのみを訓練した場合のほぼゼロの成功率とは対照的に,リバーサルタスクにおいて40%の成功率を達成することを示す。
我々の研究は、逆の呪いの新たな理論基盤を提供し、データからより高いレベルのルールを学ぶことをLLMに奨励する原則的かつ低コストな経路を提供する。
関連論文リスト
- Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Layered Unlearning for Adversarial Relearning [4.7066636827902]
本研究では,言語モデルの振る舞いや表現をポストトレーニング法でどのように修正するかを検討する。
近年の研究では、学習後、特定の応答パターンを抑圧する浅い文脈依存回路'が誘導されることが示唆されている。
この仮説をテストするために、我々は未学習アルゴリズムLayered Unlearning (LU)を設計した。
LUは、データセット全体を復元するために、データのサブセットで再学習する能力を制限する。
論文 参考訳(メタデータ) (2025-05-14T15:50:45Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。