論文の概要: On the Effect of Instruction Tuning Loss on Generalization
- arxiv url: http://arxiv.org/abs/2507.07817v1
- Date: Thu, 10 Jul 2025 14:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.449019
- Title: On the Effect of Instruction Tuning Loss on Generalization
- Title(参考訳): インストラクションチューニング損失が一般化に及ぼす影響について
- Authors: Anwoy Chatterjee, H S V N S Kowndinya Renduchintala, Sumit Bhatia, Tanmoy Chakraborty,
- Abstract要約: 標準命令チューニング損失は、しばしばサブ最適性能と、インプット・インプット・インプット・インプット・インプット・インプット・インプットのロバスト性に制限されることを示す。
プロンプトトークンに対する低から高への重みと応答トークンに対する中から高への重みが組み合わさって、設定全体にわたって最高のパフォーマンスモデルが得られることがわかった。
- 参考スコア(独自算出の注目度): 22.288479270814484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction Tuning has emerged as a pivotal post-training paradigm that enables pre-trained language models to better follow user instructions. Despite its significance, little attention has been given to optimizing the loss function used. A fundamental, yet often overlooked, question is whether the conventional auto-regressive objective - where loss is computed only on response tokens, excluding prompt tokens - is truly optimal for instruction tuning. In this work, we systematically investigate the impact of differentially weighting prompt and response tokens in instruction tuning loss, and propose Weighted Instruction Tuning (WIT) as a better alternative to conventional instruction tuning. Through extensive experiments on five language models of different families and scale, three finetuning datasets of different sizes, and five diverse evaluation benchmarks, we show that the standard instruction tuning loss often yields suboptimal performance and limited robustness to input prompt variations. We find that a low-to-moderate weight for prompt tokens coupled with a moderate-to-high weight for response tokens yields the best-performing models across settings and also serve as better starting points for the subsequent preference alignment training. These findings highlight the need to reconsider instruction tuning loss and offer actionable insights for developing more robust and generalizable models. Our code is open-sourced at https://github.com/kowndinya-renduchintala/WIT.
- Abstract(参考訳): インストラクションチューニングは、事前トレーニングされた言語モデルがユーザー指示に従うのに役立つ、重要なポストトレーニングパラダイムとして登場した。
その重要性にもかかわらず、使用する損失関数の最適化にはほとんど注意が払われていない。
基本的な、しかししばしば見落とされがちな疑問は、従来の自己回帰的目的(損失は、プロンプトトークンを除いた応答トークンでのみ計算される)が、命令のチューニングに本当に最適であるかどうかである。
そこで本研究では,命令チューニング損失に対するプロンプトと応答トークンの差分重み付けの影響を系統的に検討し,従来の命令チューニングの代替として重み付け命令チューニング(WIT)を提案する。
異なる家族とスケールの5つの言語モデル、異なるサイズの3つの微調整データセット、そして5つの多様な評価ベンチマークの広範な実験を通して、標準命令チューニングの損失は、しばしば、入力のインプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプットのパフォーマンスとロバスト性に制限されたロバスト性をもたらすことを示した。
応答トークンに対する中程度から高次の重みが組み合わされたプロンプトトークンに対する低~モデレート重みは、設定間で最高のパフォーマンスモデルとなり、その後の優先アライメントトレーニングの出発点として役立ちます。
これらの知見は、チューニングの損失を再考し、より堅牢で一般化可能なモデルを開発するための実用的な洞察を提供する必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/kowndinya-renduchintala/WIT.comで公開されている。
関連論文リスト
- IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Instructive Decoding: Instruction-Tuned Large Language Models are
Self-Refiner from Noisy Instructions [26.192531184689763]
本稿では,インストラクティブ・デコーディング(Instructive Decoding, ID)を提案する。
IDは、元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。
ランダムな単語を介して意味的ノイズを挿入するものから、逸脱した応答を誘発する「オポジット」のような他のものまで、このようなノイズの多い命令のスペクトルにわたって実験を行う。
論文 参考訳(メタデータ) (2023-11-01T02:31:35Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。