論文の概要: Bilinear relational structure fixes reversal curse and enables consistent model editing
- arxiv url: http://arxiv.org/abs/2509.21993v1
- Date: Fri, 26 Sep 2025 07:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.267043
- Title: Bilinear relational structure fixes reversal curse and enables consistent model editing
- Title(参考訳): 双線形関係構造が逆の呪文を修正し、一貫したモデル編集を可能にする
- Authors: Dong-Kyum Kim, Minsung Kim, Jea Kwon, Nakyeong Yang, Meeyoung Cha,
- Abstract要約: 逆の呪いは本質的に失敗ではなく、モデルが知識をエンコードする方法の成果であることを示す。
関係知識グラフの合成データセットをスクラッチからトレーニングすることにより、両線形関係構造が隠れ表現に現れることを示す。
この構造は逆の呪いを著しく軽減し、LMが見えない逆の事実を推測することを可能にする。
- 参考スコア(独自算出の注目度): 18.483285872202107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reversal curse -- a language model's (LM) inability to infer an unseen fact ``B is A'' from a learned fact ``A is B'' -- is widely considered a fundamental limitation. We show that this is not an inherent failure but an artifact of how models encode knowledge. By training LMs from scratch on a synthetic dataset of relational knowledge graphs, we demonstrate that bilinear relational structure emerges in their hidden representations. This structure substantially alleviates the reversal curse, enabling LMs to infer unseen reverse facts. Crucially, we also find that this bilinear structure plays a key role in consistent model editing. When a fact is updated in a LM with this structure, the edit correctly propagates to its reverse and other logically dependent facts. In contrast, models lacking this representation not only suffer from the reversal curse but also fail to generalize edits, further introducing logical inconsistencies. Our results establish that training on a relational knowledge dataset induces the emergence of bilinear internal representations, which in turn enable LMs to behave in a logically consistent manner after editing. This implies that the success of model editing depends critically not just on editing algorithms but on the underlying representational geometry of the knowledge being modified.
- Abstract(参考訳): 言語モデル(LM)では、学習された事実である ``A is B'' から ``B is A'' を推測できないという逆の呪いは、基本的な制限とみなされている。
これは本質的に失敗ではなく、モデルが知識をエンコードする方法の成果物であることを示している。
関係知識グラフの合成データセットをスクラッチからトレーニングすることにより、両線形関係構造が隠れ表現に現れることを示す。
この構造は逆の呪いを著しく軽減し、LMが見えない逆の事実を推測することを可能にする。
重要なことに、この双線形構造は一貫性のあるモデル編集において重要な役割を果たす。
この構造を持つLMで事実が更新されると、編集はその逆や論理的に依存する事実に正しく伝播する。
対照的に、この表現を欠いたモデルは、逆の呪いに苦しむだけでなく、編集の一般化にも失敗し、さらに論理的な矛盾がもたらされる。
この結果から,関係知識データセットを用いたトレーニングは,二線形内部表現の出現を誘導し,その結果,LMが編集後に論理的に一貫した振る舞いをすることができることがわかった。
これは、モデル編集の成功は、編集アルゴリズムだけでなく、修正される知識の基本的な表現幾何学にも大きく依存していることを意味する。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing [20.276952762837098]
知識編集(KE)アルゴリズムは、モデルの重みを変更して、不正、時代遅れ、その他の望ましくない事実関連付けに対するターゲット更新を実行する。
我々は,KEの適用が,モデルのより広い事実的リコール精度に悪影響を及ぼし,推論能力が低下することを示す。
我々の研究は、KEがモデル能力に悪影響を及ぼす理由を説明するための正確な力学仮説をもたらす。
論文 参考訳(メタデータ) (2024-10-22T17:13:34Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Untying the Reversal Curse via Bidirectional Language Model Editing [41.040662400025184]
大規模言語モデル(LLM)は、膨大な事実知識をパラメータに格納する。
LLMは、誤ったまたは時代遅れの知識のために意図しないテキストを幻覚させる傾向がある。
本研究では、双方向言語モデル編集について検討し、LLMが双方向で編集知識をリコールできるかどうかを評価する。
論文 参考訳(メタデータ) (2023-10-16T12:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。