論文の概要: Towards an Understanding of Stepwise Inference in Transformers: A
Synthetic Graph Navigation Model
- arxiv url: http://arxiv.org/abs/2402.07757v1
- Date: Mon, 12 Feb 2024 16:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:43:56.655561
- Title: Towards an Understanding of Stepwise Inference in Transformers: A
Synthetic Graph Navigation Model
- Title(参考訳): 変圧器のステップワイズ推論の理解に向けて:合成グラフナビゲーションモデル
- Authors: Mikail Khona, Maya Okawa, Jan Hula, Rahul Ramesh, Kento Nishi, Robert
Dick, Ekdeep Singh Lubana, Hidenori Tanaka
- Abstract要約: 本稿では,ステップワイズ推論が一般的に有用である問題の多段階の性質を具現化した,自動回帰変換器モデルを提案する。
単純さにもかかわらず、私たちは経験的に、大規模に観察されたいくつかの現象を再現し分析することができることに気付きました。
- 参考スコア(独自算出の注目度): 19.826983068662106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stepwise inference protocols, such as scratchpads and chain-of-thought, help
language models solve complex problems by decomposing them into a sequence of
simpler subproblems. Despite the significant gain in performance achieved via
these protocols, the underlying mechanisms of stepwise inference have remained
elusive. To address this, we propose to study autoregressive Transformer models
on a synthetic task that embodies the multi-step nature of problems where
stepwise inference is generally most useful. Specifically, we define a graph
navigation problem wherein a model is tasked with traversing a path from a
start to a goal node on the graph. Despite is simplicity, we find we can
empirically reproduce and analyze several phenomena observed at scale: (i) the
stepwise inference reasoning gap, the cause of which we find in the structure
of the training data; (ii) a diversity-accuracy tradeoff in model generations
as sampling temperature varies; (iii) a simplicity bias in the model's output;
and (iv) compositional generalization and a primacy bias with in-context
exemplars. Overall, our work introduces a grounded, synthetic framework for
studying stepwise inference and offers mechanistic hypotheses that can lay the
foundation for a deeper understanding of this phenomenon.
- Abstract(参考訳): scratchpadsやchain-of-thoughtのようなステップワイズ推論プロトコルは、言語モデルが複雑な問題を解決するのに役立つ。
これらのプロトコルによる性能向上にもかかわらず、段階的推論の基本的なメカニズムはいまだ解明されていない。
そこで本研究では,ステップワイズ推論が一般的に有用である問題の多段階の性質を具現化した,自動回帰変換器モデルを提案する。
具体的には、モデルがグラフの開始からゴールノードへのパスをトラバースするタスクを課すグラフナビゲーション問題を定義する。
単純さにも拘わらず、大規模に観測されたいくつかの現象を経験的に再現し分析できることがわかりました。
(i)訓練データの構造において見出される段階的な推論推論ギャップ
二 サンプリング温度の変動によるモデル世代における多様性・正確性トレードオフ
(iii)モデルの出力の単純さのバイアス
(iv)in-contextexemplarsによる構成一般化とプライマシーバイアス。
全体として、我々の研究はステップワイズ推論を研究するための基礎的な合成フレームワークを導入し、この現象をより深く理解するための基礎となる機械的な仮説を提供します。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - FiP: a Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
因果順序付き変数上の不動点問題を記述するのにDAGを必要としない新しい等価形式法を提案する。
トポロジカル秩序(TO)を考慮し,一意に回復できる3つの重要な症例を示す。
論文 参考訳(メタデータ) (2024-04-10T12:29:05Z) - Information theory for data-driven model reduction in physics and biology [0.0]
我々は,関連変数を特定するために,情報ボトルネックに基づく体系的アプローチを開発する。
高圧縮の極限において、関連する変数は、最も遅い遅延固有関数によって直接決定されることを示す。
モデルリダクションを実行する解釈可能なディープラーニングツールを構築するための確固たる基盤を提供する。
論文 参考訳(メタデータ) (2023-12-11T18:39:05Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - A Meta Learning Approach to Discerning Causal Graph Structure [1.52292571922932]
分布の単純度を最適化することにより,変数間の因果方向を導出するためのメタラーニングの活用について検討する。
潜在変数を含むグラフ表現を導入し、より一般化性とグラフ構造表現を可能にする。
我々のモデルは、潜在共同設立者の影響にもかかわらず、複雑なグラフ構造の因果方向インジケータを学習することができる。
論文 参考訳(メタデータ) (2021-06-06T22:44:44Z) - Why Adversarial Interaction Creates Non-Homogeneous Patterns: A
Pseudo-Reaction-Diffusion Model for Turing Instability [10.933825676518195]
交叉相互作用を持つニューロン系のチューリング様パターンを観察する。
本稿では,これらの現象を過小評価するメカニズムを説明するための擬似反応拡散モデルを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:09:22Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。