Fugu-MT 論文翻訳(概要): Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers

論文の概要: Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers

arxiv url: http://arxiv.org/abs/2406.03068v2
Date: Thu, 06 Mar 2025 23:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.585483
Title: Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers
Title（参考訳）: 配当関係と文脈推論--フィードフォワード層とアテンション層の検討
Authors: Lei Chen, Joan Bruna, Alberto Bietti,
Abstract要約: 本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
参考スコア（独自算出の注目度）: 49.80959223722325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have been successful at tasks involving basic forms of in-context reasoning, such as generating coherent language, as well as storing vast amounts of knowledge. At the core of the Transformer architecture behind such models are feed-forward and attention layers, which are often associated to knowledge and reasoning, respectively. In this paper, we study this distinction empirically and theoretically in a controlled synthetic setting where certain next-token predictions involve both distributional and in-context information. We find that feed-forward layers tend to learn simple distributional associations such as bigrams, while attention layers focus on in-context reasoning. Our theoretical analysis identifies the noise in the gradients as a key factor behind this discrepancy. Finally, we illustrate how similar disparities emerge in pre-trained models through ablations on the Pythia model family on simple reasoning tasks.
Abstract（参考訳）: 大規模言語モデルは、コヒーレント言語の生成や膨大な量の知識の保存といった、コンテキスト内推論の基本形式を含むタスクで成功している。これらのモデルの背後にあるTransformerアーキテクチャのコアはフィードフォワード層とアテンション層であり、それぞれが知識と推論に関連付けられていることが多い。本稿では,この区別を,ある次トーケン予測が分布情報と文脈内情報の両方を含む制御された合成環境において,経験的,理論的に検討する。フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。我々の理論的解析は、勾配のノイズを、この相違の背後にある重要な要因として特定する。最後に、Pythiaモデルファミリにおける単純な推論タスクの省略を通じて、事前学習モデルに類似した相違が出現する様子を説明する。

関連論文リスト

A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文参考訳（メタデータ） (2025-05-29T17:02:49Z)
Next-token pretraining implies in-context learning [0.0]
トークンシーケンス、特に非エルゴディックソースでトレーニングされた場合、モデルがどのようにコンテキストに適応するかを示す。我々の情報理論フレームワークは、これらの分布内ICLダイナミクスを正確に予測する。また、任意のタスクにおけるモデルのコンテキスト内性能が、事前学習で見られるタスクのアンサンブルと数学的に結合していることを示す。
論文参考訳（メタデータ） (2025-05-23T21:00:18Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-06-05T13:13:58Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文参考訳（メタデータ） (2024-03-01T18:55:20Z)
Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。 2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
The mechanistic basis of data dependence and abrupt learning in an in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文参考訳（メタデータ） (2023-12-03T20:53:41Z)
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文参考訳（メタデータ） (2023-06-21T07:34:27Z)
Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文参考訳（メタデータ） (2023-05-17T23:55:32Z)
A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文参考訳（メタデータ） (2023-03-14T15:24:05Z)
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-19T07:40:02Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Disentangling Reasoning Capabilities from Language Models with Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文参考訳（メタデータ） (2022-10-20T13:39:55Z)
Testing Pre-trained Language Models' Understanding of Distributivity via Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文参考訳（メタデータ） (2022-09-11T00:33:28Z)
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。 16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-15T11:37:14Z)
On the Interplay Between Fine-tuning and Composition in Transformers [7.513100214864645]
本研究では,微調整が文脈的埋め込み能力に及ぼす影響について検討する。具体的には、語彙重なりの大きい逆パラフレーズ分類タスクと感情分類タスクを微調整する。微調整はこれらの表現における構成性の恩恵をほとんど得られないが、感情に関するトレーニングは特定のモデルに対して小さな局所的な利益をもたらす。
論文参考訳（メタデータ） (2021-05-31T01:49:56Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)
Pairwise Supervision Can Provably Elicit a Decision Boundary [84.58020117487898]
類似性学習は、パターンのペア間の関係を予測することによって有用な表現を引き出す問題である。類似性学習は、決定境界を直接引き出すことによって二項分類を解くことができることを示す。
論文参考訳（メタデータ） (2020-06-11T05:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。