論文の概要: How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
- arxiv url: http://arxiv.org/abs/2504.02904v1
- Date: Thu, 03 Apr 2025 06:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:50:06.759819
- Title: How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
- Title(参考訳): ポストトレーニングがLCMにどう影響するか:知識・真理・拒絶・信頼に関する力学的考察
- Authors: Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang,
- Abstract要約: 大規模言語モデル(LLM)の成功にはポストトレーニングが不可欠である
学習後効果をよりよく理解するために,4つの視点からベースとポストトレーニング後のLLMを比較した。
- 参考スコア(独自算出の注目度): 46.47170768927952
- License:
- Abstract: Post-training is essential for the success of large language models (LLMs), transforming pre-trained base models into more useful and aligned post-trained models. While plenty of works have studied post-training algorithms and evaluated post-training models by their outputs, it remains understudied how post-training reshapes LLMs internally. In this paper, we compare base and post-trained LLMs mechanistically from four perspectives to better understand post-training effects. Our findings across model families and datasets reveal that: (1) Post-training does not change the factual knowledge storage locations, and it adapts knowledge representations from the base model while developing new knowledge representations; (2) Both truthfulness and refusal can be represented by linear vectors in the hidden representation space. The truthfulness direction is highly similar between the base and post-trained model, and it is effectively transferable for interventions; (3) The refusal direction is different between the base and post-trained models, and it shows limited forward transferability; (4) Differences in confidence between the base and post-trained models cannot be attributed to entropy neurons. Our study provides insights into the fundamental mechanisms preserved and altered during post-training, facilitates downstream tasks like model steering, and could potentially benefit future research in interpretability and LLM post-training.
- Abstract(参考訳): ポストトレーニングは、大規模言語モデル(LLM)の成功に不可欠であり、事前トレーニングされたベースモデルをより有用で整列されたポストトレーニングモデルに変換する。
ポストトレーニングアルゴリズムの研究や、アウトプットによるポストトレーニングモデルの評価は、多くの研究で行われているが、ポストトレーニング後のLSMが内部的にどのようにリサップするかは、まだ検討されていない。
本稿では,4つの視点から基礎学習と後学習のLLMを機械的に比較し,学習後の効果をよりよく理解する。
モデルファミリやデータセットにまたがる知見から,(1)学習後の知識記憶場所は変化せず,新たな知識表現を開発しながらベースモデルから知識表現を適応させ,(2)真実さと拒絶は,隠された表現空間内の線形ベクトルで表現できることがわかった。
正当性方向は, ベースモデルと後トレーニングモデルに非常によく似ており, 介入には効果的に伝達可能である。(3) 拒絶方向は, ベースモデルと後トレーニングモデルの間に異なり, 前方転送性は限定的であり, (4) ベースモデルと後トレーニングモデルとの信頼度の違いは, エントロピーニューロンに帰属できない。
本研究は, モデルステアリングなどの下流作業の促進や, 解釈可能性, LLMポストトレーニングの今後の研究に有効である可能性が示唆された。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? [19.34040322172224]
テキストドメイン上でモデルをトレーニングすることは、同じドメインのテスト部分において、その難易度を低下させる可能性があることを示す。
我々の発見は、いつモデルを適応するか、いつ基礎的な能力に頼るかを決める上で、私たちを導くでしょう。
論文 参考訳(メタデータ) (2024-10-08T00:37:16Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Meet in the Middle: A New Pre-training Paradigm [41.52858444519968]
ほとんどの言語モデル(LM)は、自己回帰的な左から右の方法で訓練され、適用されます。
本稿では,トレーニングデータ効率を協調的に向上させる技術を備えた,新たな事前学習パラダイムを提案する。
本稿では,プログラムモデルと自然言語モデルの両方に関する広範な実験により,事前学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T17:17:11Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:55:10Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。