Fugu-MT 論文翻訳(概要): How Truncating Weights Improves Reasoning in Language Models

論文の概要: How Truncating Weights Improves Reasoning in Language Models

arxiv url: http://arxiv.org/abs/2406.03068v1
Date: Wed, 5 Jun 2024 08:51:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:19:28.701046
Title: How Truncating Weights Improves Reasoning in Language Models
Title（参考訳）: トレンシングウェイトが言語モデルにおける推論を改善する方法
Authors: Lei Chen, Joan Bruna, Alberto Bietti,
Abstract要約: 特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
参考スコア（独自算出の注目度）: 49.80959223722325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In addition to the ability to generate fluent text in various languages, large language models have been successful at tasks that involve basic forms of logical "reasoning" over their context. Recent work found that selectively removing certain components from weight matrices in pre-trained models can improve such reasoning capabilities. We investigate this phenomenon further by carefully studying how certain global associations tend to be stored in specific weight components or Transformer blocks, in particular feed-forward layers. Such associations may hurt predictions in reasoning tasks, and removing the corresponding components may then improve performance. We analyze how this arises during training, both empirically and theoretically, on a two-layer Transformer trained on a basic reasoning task with noise, a toy associative memory model, and on the Pythia family of pre-trained models tested on simple reasoning tasks.
Abstract（参考訳）: 様々な言語で流動的なテキストを生成する能力に加えて、大きな言語モデルは、その文脈における論理的「推論」の基本的な形式を含むタスクで成功している。近年の研究では、事前訓練されたモデルにおける重み行列から特定の成分を選択的に除去することで、そのような推論能力を向上させることが判明している。本研究では,この現象を,特定の重み成分やトランスフォーマーブロック,特にフィードフォワード層に蓄積する傾向のあるグローバルアソシエーションについて,慎重に検討する。このような関連性は、推論タスクの予測を損なう可能性があり、対応するコンポーネントを削除することでパフォーマンスが向上する可能性がある。実験的にも理論的にも、ノイズによる基本的な推論タスク、おもちゃの連想記憶モデル、および単純な推論タスクでテストされた事前学習されたモデルのPythiaファミリで訓練された2層トランスフォーマー上で、この現象がどのように起こるかを分析する。

関連論文リスト

A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文参考訳（メタデータ） (2025-05-29T17:02:49Z)
Next-token pretraining implies in-context learning [0.0]
トークンシーケンス、特に非エルゴディックソースでトレーニングされた場合、モデルがどのようにコンテキストに適応するかを示す。我々の情報理論フレームワークは、これらの分布内ICLダイナミクスを正確に予測する。また、任意のタスクにおけるモデルのコンテキスト内性能が、事前学習で見られるタスクのアンサンブルと数学的に結合していることを示す。
論文参考訳（メタデータ） (2025-05-23T21:00:18Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。 NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文参考訳（メタデータ） (2024-07-16T11:12:28Z)
Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-06-05T13:13:58Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文参考訳（メタデータ） (2024-03-01T18:55:20Z)
Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。 2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
The mechanistic basis of data dependence and abrupt learning in an in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文参考訳（メタデータ） (2023-12-03T20:53:41Z)
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文参考訳（メタデータ） (2023-06-21T07:34:27Z)
Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文参考訳（メタデータ） (2023-05-17T23:55:32Z)
A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文参考訳（メタデータ） (2023-03-14T15:24:05Z)
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-19T07:40:02Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Disentangling Reasoning Capabilities from Language Models with Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文参考訳（メタデータ） (2022-10-20T13:39:55Z)
Testing Pre-trained Language Models' Understanding of Distributivity via Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文参考訳（メタデータ） (2022-09-11T00:33:28Z)
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。 16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-15T11:37:14Z)
On the Interplay Between Fine-tuning and Composition in Transformers [7.513100214864645]
本研究では,微調整が文脈的埋め込み能力に及ぼす影響について検討する。具体的には、語彙重なりの大きい逆パラフレーズ分類タスクと感情分類タスクを微調整する。微調整はこれらの表現における構成性の恩恵をほとんど得られないが、感情に関するトレーニングは特定のモデルに対して小さな局所的な利益をもたらす。
論文参考訳（メタデータ） (2021-05-31T01:49:56Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)
Pairwise Supervision Can Provably Elicit a Decision Boundary [84.58020117487898]
類似性学習は、パターンのペア間の関係を予測することによって有用な表現を引き出す問題である。類似性学習は、決定境界を直接引き出すことによって二項分類を解くことができることを示す。
論文参考訳（メタデータ） (2020-06-11T05:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。