論文の概要: The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse
- arxiv url: http://arxiv.org/abs/2604.04943v1
- Date: Fri, 13 Mar 2026 20:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.605362
- Title: The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse
- Title(参考訳): 潜在一般化のイリュージョン:双方向性と逆曲線
- Authors: Julian Coda-Forno, Jane X. Wang, Arslan Chaudhry,
- Abstract要約: 逆の呪文は、事実を逆順に回収する自己回帰言語モデルの失敗を記述している。
近年の研究では、双方向監視による目的が逆の呪いを軽減することが示されている。
逆精度は、ソースエンティティを予測対象とするトレーニング信号を必要とすることを示す。
- 参考スコア(独自算出の注目度): 7.920832441141614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reversal curse describes a failure of autoregressive language models to retrieve a fact in reverse order (e.g., training on ``$A > B$'' but failing on ``$B < A$''). Recent work shows that objectives with bidirectional supervision (e.g., bidirectional attention or masking-based reconstruction for decoder-only models) can mitigate the reversal curse. We extend this evaluation to include a vanilla masked language modeling (MLM) objective and compare it to decoder-only masking-based training across four reversal benchmarks and then provide a minimal mechanistic study of \emph{how} these objectives succeed. We show that reversal accuracy requires training signal that explicitly makes the source entity a prediction target, and we find little evidence that success corresponds to a single direction-agnostic representation of a fact. Instead, representation distances and linear probes are consistent with storing forward and reverse directions as distinct entries, with different indexing geometry for MLM versus decoder-only masking-based training. Our results caution that objective-level ``fixes'' can improve reversal behavior without necessarily inducing the kind of latent generalization one might expect from a unified concept.
- Abstract(参考訳): 例えば、 ``$A > B$'' でトレーニングするが ``$B < A$'' でトレーニングする)。
最近の研究は、双方向の監視(例えば、双方向の注意やデコーダのみのモデルによるマスキングに基づく再構築)により、逆の呪いを軽減できることを示している。
我々は,この評価を,バニラマスク言語モデリング(MLM)の目的を含むように拡張し,これを4つの逆ベンチマークでデコーダのみのマスキングに基づくトレーニングと比較し,これらの目的を成功させるための最小限の機械論的研究を提供する。
逆精度は、ソースエンティティを予測対象とするトレーニング信号を必要とすることを示し、成功が事実の1つの方向に依存しない表現に一致するという証拠はほとんど見つからない。
代わりに、表現距離と線形プローブは、前方方向と逆方向を異なるエントリとして保存し、MLMとデコーダのみのマスキングに基づくトレーニングの異なるインデックス化幾何学と一致している。
以上より,「修正」は,統一概念から期待される潜在的一般化を必ずしも引き起こさずに,逆転行動を改善することができると警告した。
関連論文リスト
- An Illusion of Unlearning? Assessing Machine Unlearning Through Internal Representations [16.917151304941967]
最終層の特徴と分類器のミスアライメントが主な原因で,最先端の非学習手法が成功していることを示す。
隠れた特徴は相変わらず差別的であり、単純な線形探索は、ほぼ原産地の精度を回復することができる。
論文 参考訳(メタデータ) (2026-04-09T14:02:23Z) - When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T12:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。