論文の概要: An Analysis for Reasoning Bias of Language Models with Small Initialization
- arxiv url: http://arxiv.org/abs/2502.04375v1
- Date: Wed, 05 Feb 2025 15:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:15.668572
- Title: An Analysis for Reasoning Bias of Language Models with Small Initialization
- Title(参考訳): 小さな初期化を伴う言語モデルの推論バイアスの解析
- Authors: Junjie Yao, Zhongwang Zhang, Zhi-Qin John Xu,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。
本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 8.380004565348619
- License:
- Abstract: Transformer-based Large Language Models (LLMs) have revolutionized Natural Language Processing by demonstrating exceptional performance across diverse tasks. This study investigates the impact of the parameter initialization scale on the training behavior and task preferences of LLMs. We discover that smaller initialization scales encourage models to favor reasoning tasks, whereas larger initialization scales lead to a preference for memorization tasks. We validate this reasoning bias via real datasets and meticulously designed anchor functions. Further analysis of initial training dynamics suggests that specific model components, particularly the embedding space and self-attention mechanisms, play pivotal roles in shaping these learning biases. We provide a theoretical framework from the perspective of model training dynamics to explain these phenomena. Additionally, experiments on real-world language tasks corroborate our theoretical insights. This work enhances our understanding of how initialization strategies influence LLM performance on reasoning tasks and offers valuable guidelines for training models.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。
本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
より小さな初期化スケールは、モデルが推論タスクを好むように促すのに対し、より大きな初期化スケールは記憶タスクを好むことに繋がる。
我々はこの推論バイアスを実際のデータセットと慎重に設計されたアンカー関数で検証する。
初期トレーニングダイナミクスのさらなる分析は、特定のモデルコンポーネント、特に埋め込み空間と自己認識機構が、これらの学習バイアスを形成する上で重要な役割を担っていることを示唆している。
これらの現象を説明するためのモデルトレーニング力学の観点から理論的枠組みを提供する。
さらに、実世界の言語タスクに関する実験は、我々の理論的洞察を裏付ける。
この研究は、初期化戦略が推論タスクにおけるLCMのパフォーマンスにどのように影響するかの理解を深め、トレーニングモデルに有用なガイドラインを提供する。
関連論文リスト
- Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning [35.34985930216027]
破滅的な忘れ(CF)は、機械学習において重要な課題であり、モデルは新しいタスクを学ぶ際に学習した情報を忘れる。
本研究はCFを様々な設定で探索し、モデル忘れは特定のトレーニングタスクとモデル自体の影響を受けていることを発見した。
本稿では,FVを安定させ,それを忘れるために正規化手法を取り入れた新しい関数ベクトル誘導訓練手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T07:06:17Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - LMPriors: Pre-Trained Language Models as Task-Specific Priors [78.97143833642971]
適切な事前条件でモデルを拡張するための原則的手法を開発した。
これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。
我々は,近年の大規模言語モデル(LM)の成功から着想を得た。
論文 参考訳(メタデータ) (2022-10-22T19:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。