論文の概要: How Truncating Weights Improves Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2406.03068v1
- Date: Wed, 5 Jun 2024 08:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:19:28.701046
- Title: How Truncating Weights Improves Reasoning in Language Models
- Title(参考訳): トレンシングウェイトが言語モデルにおける推論を改善する方法
- Authors: Lei Chen, Joan Bruna, Alberto Bietti,
- Abstract要約: 特定のグローバルな関連が、特定の重み成分やトランスフォーマーブロックにどのように格納されるかを検討する。
実験的にも理論的にも、トレーニング中にどのように起こるのかを分析します。
- 参考スコア(独自算出の注目度): 49.80959223722325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In addition to the ability to generate fluent text in various languages, large language models have been successful at tasks that involve basic forms of logical "reasoning" over their context. Recent work found that selectively removing certain components from weight matrices in pre-trained models can improve such reasoning capabilities. We investigate this phenomenon further by carefully studying how certain global associations tend to be stored in specific weight components or Transformer blocks, in particular feed-forward layers. Such associations may hurt predictions in reasoning tasks, and removing the corresponding components may then improve performance. We analyze how this arises during training, both empirically and theoretically, on a two-layer Transformer trained on a basic reasoning task with noise, a toy associative memory model, and on the Pythia family of pre-trained models tested on simple reasoning tasks.
- Abstract(参考訳): 様々な言語で流動的なテキストを生成する能力に加えて、大きな言語モデルは、その文脈における論理的「推論」の基本的な形式を含むタスクで成功している。
近年の研究では、事前訓練されたモデルにおける重み行列から特定の成分を選択的に除去することで、そのような推論能力を向上させることが判明している。
本研究では,この現象を,特定の重み成分やトランスフォーマーブロック,特にフィードフォワード層に蓄積する傾向のあるグローバルアソシエーションについて,慎重に検討する。
このような関連性は、推論タスクの予測を損なう可能性があり、対応するコンポーネントを削除することでパフォーマンスが向上する可能性がある。
実験的にも理論的にも、ノイズによる基本的な推論タスク、おもちゃの連想記憶モデル、および単純な推論タスクでテストされた事前学習されたモデルのPythiaファミリで訓練された2層トランスフォーマー上で、この現象がどのように起こるかを分析する。
関連論文リスト
- Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Disentangling Reasoning Capabilities from Language Models with
Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。
表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。
統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文 参考訳(メタデータ) (2022-10-20T13:39:55Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - On the Interplay Between Fine-tuning and Composition in Transformers [7.513100214864645]
本研究では,微調整が文脈的埋め込み能力に及ぼす影響について検討する。
具体的には、語彙重なりの大きい逆パラフレーズ分類タスクと感情分類タスクを微調整する。
微調整はこれらの表現における構成性の恩恵をほとんど得られないが、感情に関するトレーニングは特定のモデルに対して小さな局所的な利益をもたらす。
論文 参考訳(メタデータ) (2021-05-31T01:49:56Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。