論文の概要: Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure
- arxiv url: http://arxiv.org/abs/2504.01928v1
- Date: Wed, 02 Apr 2025 17:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:43.101689
- Title: Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure
- Title(参考訳): 逆曲線は結合問題か? 基本一般化失敗による変圧器の限界を明らかにする
- Authors: Boshi Wang, Huan Sun,
- Abstract要約: LLMはReversal Curseとして知られる基本的な一般化の失敗を示す。
LLMにおける逆曲線は認知科学、神経科学、AIにおける長年の結合問題の顕在化である。
- 参考スコア(独自算出の注目度): 14.07889703663922
- License:
- Abstract: Despite their impressive capabilities, LLMs exhibit a basic generalization failure known as the Reversal Curse, where they struggle to learn reversible factual associations. Understanding why this occurs could help identify weaknesses in current models and advance their generalization and robustness. In this paper, we conjecture that the Reversal Curse in LLMs is a manifestation of the long-standing binding problem in cognitive science, neuroscience and AI. Specifically, we identify two primary causes of the Reversal Curse stemming from transformers' limitations in conceptual binding: the inconsistency and entanglements of concept representations. We perform a series of experiments that support these conjectures. Our exploration leads to a model design based on JEPA (Joint-Embedding Predictive Architecture) that for the first time breaks the Reversal Curse without side-stepping it with specialized data augmentation or non-causal masking, and moreover, generalization could be further improved by incorporating special memory layers that support disentangled concept representations. We demonstrate that the skill of reversal unlocks a new kind of memory integration that enables models to solve large-scale arithmetic reasoning problems via parametric forward-chaining, outperforming frontier LLMs based on non-parametric memory and prolonged explicit reasoning.
- Abstract(参考訳): その印象的な能力にもかかわらず、LLMはReversal Curseとして知られる基本的な一般化の失敗を示し、そこで彼らは可逆的な事実関連を学ぼうとしている。
これがなぜ起こるのかを理解することは、現在のモデルの弱点を特定し、一般化と堅牢性を前進させるのに役立つ。
本稿では,LLMにおける逆曲線は認知科学,神経科学,AIにおける長年の結合問題の顕在化である,と推測する。
具体的には、概念表現の不整合性と絡み合いという、概念結合におけるトランスフォーマーの限界から生じる逆曲線の2つの主な原因を同定する。
これらの予想を支持する一連の実験を行う。
我々の探索はJEPA(Joint-Embedding Predictive Architecture)に基づくモデル設計につながり、特殊なデータ拡張や非因果マスキングを伴わずにReversal Curseをサイドステッピングすることなく、初めて分解する。
本研究では,非パラメトリックメモリと長時間の明示的推論に基づいて,パラメトリックフォワードチェイン,フロンティアLLMの性能向上による大規模算術推論問題をモデルが解けるような,新たな種類のメモリ統合を実現することを実証する。
関連論文リスト
- Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。
本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文 参考訳(メタデータ) (2024-10-25T17:56:24Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Memory in humans and deep language models: Linking hypotheses for model
augmentation [1.0485739694839669]
メモリ拡張トランスフォーマーは、人間の記憶文学からの洞察から大きく恩恵を受けることができると我々は主張する。
本稿では、クロスドメインリンク仮説の仕様により、人間の記憶システムからのエビデンスを統合するアプローチについて詳述する。
論文 参考訳(メタデータ) (2022-10-04T19:35:11Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。