論文の概要: Exposing Attention Glitches with Flip-Flop Language Modeling
- arxiv url: http://arxiv.org/abs/2306.00946v2
- Date: Mon, 30 Oct 2023 16:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:52:48.717746
- Title: Exposing Attention Glitches with Flip-Flop Language Modeling
- Title(参考訳): Flip-Flop言語モデリングによる注意グラフの抽出
- Authors: Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril
Zhang
- Abstract要約: この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 55.0688535574859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Why do large language models sometimes output factual inaccuracies and
exhibit erroneous reasoning? The brittleness of these models, particularly when
executing long chains of reasoning, currently seems to be an inevitable price
to pay for their advanced capabilities of coherently synthesizing knowledge,
pragmatics, and abstract thought. Towards making sense of this fundamentally
unsolved problem, this work identifies and analyzes the phenomenon of attention
glitches, in which the Transformer architecture's inductive biases
intermittently fail to capture robust reasoning. To isolate the issue, we
introduce flip-flop language modeling (FFLM), a parametric family of synthetic
benchmarks designed to probe the extrapolative behavior of neural language
models. This simple generative task requires a model to copy binary symbols
over long-range dependencies, ignoring the tokens in between. We find that
Transformer FFLMs suffer from a long tail of sporadic reasoning errors, some of
which we can eliminate using various regularization techniques. Our preliminary
mechanistic analyses show why the remaining errors may be very difficult to
diagnose and resolve. We hypothesize that attention glitches account for (some
of) the closed-domain hallucinations in natural LLMs.
- Abstract(参考訳): なぜ大規模な言語モデルは事実的不正確さを出力し、誤った推論を示すのか?
これらのモデルの脆さ、特に推論の長い連鎖を実行する場合、現在、知識、実践的思考、抽象的思考を一貫性を持って合成する高度な能力を支払うために避けられない価格であるように思える。
この根本的な未解決問題を理解するため、本研究は、トランスフォーマーアーキテクチャの帰納的バイアスが断続的にロバストな推論を捉えることができない、注意欠陥の現象を識別し、分析する。
この問題を分離するために,ニューラルネットワークモデルの外挿挙動を探索するために設計された合成ベンチマークのパラメトリックなファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
この単純な生成タスクは、長い範囲の依存に対してバイナリシンボルをコピーするモデルを必要とします。
トランスフォーマーfflmは散発的な推論エラーの長い尾に苦しむことが分かり、その一部は様々な正規化技術を用いて排除できる。
予備的な機構解析により,残差エラーの診断と解決が困難になる可能性が示唆された。
我々は,自然のLLMにおける閉領域幻覚に注意点が関与していると仮定する。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。