論文の概要: InfoSteer: Steering Information Utility in Language Model Post-Training
- arxiv url: http://arxiv.org/abs/2507.05158v1
- Date: Mon, 07 Jul 2025 16:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.507767
- Title: InfoSteer: Steering Information Utility in Language Model Post-Training
- Title(参考訳): InfoSteer: 学習後の言語モデルにおける情報ユーティリティのステアリング
- Authors: Chunyuan Deng, Ruidi Chang, Hanjie Chen,
- Abstract要約: 本稿では,学習後の言語モデル(LM)におけるパラメトリック情報の利用を促す軽量な手法を提案する。
この単純なガイダンスは、Qwen、Gemma、Llamaなど、さまざまなモデルファミリで一貫したパフォーマンス改善を提供します。
我々の研究は、バニラポストトレーニングが事前学習の可能性を十分に活用していないこと、そして潜在表現空間におけるLMの操舵は、有望なアプローチであることを示している。
- 参考スコア(独自算出の注目度): 7.756342860929851
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in language models (LMs) gradually ushered in an era where post-training is crucial. Yet, post-training approaches such as supervised fine-tuning (SFT) do not guarantee effective use of knowledge acquired during pretraining. We therefore present \ours, a lightweight method that encourages parametric information utilization in LMs during post-training. This is achieved via treating FFN layer as associate key-value memory, and promotes the use of stored memory vectors via forward-pass interventions or regularization during backpropagation. We find this simple guidance during post-training phase delivers consistent performance improvements across diverse model families--including Qwen, Gemma and Llama-spanning over 15 downstream tasks in both ID and OOD evaluations. Beyond performance gains, we also find that steered LMs can adaptively allocate information-placing more emphasis on generating semantically meaningful tokens, while using fewer resources on simple transition ones (e.g., `,' or `and'). Our work underscores that vanilla post-training does not fully leverage pre-training potential, and steering LMs in latent representation space offers a promising approach that enhances both performance and interpretability.
- Abstract(参考訳): 言語モデル(LM)の最近の進歩は、ポストトレーニングが不可欠である時代に徐々に浸透していった。
しかし、教師付き微調整(SFT)のようなポストトレーニングアプローチは、事前トレーニング中に得られた知識を効果的に活用することを保証するものではない。
そこで本研究では,後学習におけるLMのパラメトリック情報利用を促進する軽量な方法であるShaoursを提案する。
これはFFN層を関連キー値メモリとして扱うことで実現され、フォワードパスの介入やバックプロパゲーション時の正規化を通じてストアドメモリベクターの使用を促進する。
トレーニング後のこの簡単なガイダンスは,Qwen,Gemma,Llamaなど,さまざまなモデルファミリーで一貫したパフォーマンス向上を実現している。
性能向上以外にも、構造化LMは、単純なトランジション(例: `, ‘, ‘, ‘and’)のリソースを減らしながら、意味的に意味のあるトークンを生成することに重点を置いた情報を適応的に割り当てることができる。
我々の研究は、バニラポストトレーニングが事前学習の可能性を十分に活用していないことを示し、潜在表現空間におけるLMのステアリングは、性能と解釈可能性の両方を高める有望なアプローチを提供する。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。
既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。
動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。