論文の概要: Synthesizing Instruction-Tuning Datasets with Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2604.13538v1
- Date: Wed, 15 Apr 2026 06:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.416514
- Title: Synthesizing Instruction-Tuning Datasets with Contrastive Decoding
- Title(参考訳): コントラストデコーディングによる命令調整データセットの合成
- Authors: Tatsuya Ichinose, Youmi Ma, Masanari Oi, Ryuto Koike, Naoaki Okazaki,
- Abstract要約: 応答生成において,学習後モデルと事前学習後のモデル間のコントラストデコーディングを適用する手法を提案する。
実験の結果、CoDITによって構築されたデータセットでトレーニングされたモデルは、直接生成されたレスポンスでトレーニングされたモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 17.127903764198084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using responses generated by high-performing large language models (LLMs) for instruction tuning has become a widely adopted approach. However, the existing literature overlooks a property of LLM-generated responses: they conflate world knowledge acquired during pre-training with instruction-following capabilities acquired during post-training. We hypothesize that disentangling the instruction-following capabilities from pre-trained knowledge improves the effectiveness of instruction tuning. To this end, we propose CoDIT, a method that applies contrastive decoding between a post-trained model and its pre-trained counterpart during response generation. The method suppresses pre-trained knowledge shared between the two models while amplifying the instruction-following behavior acquired via post-training, resulting in responses that more purely reflect instruction-following capabilities. Experiment results demonstrate that models trained on datasets constructed via CoDIT consistently outperform those trained on directly generated responses. Training on our datasets also yields better performance than on existing publicly available instruction-tuning datasets across multiple benchmarks. Furthermore, we theoretically and empirically show that CoDIT can be interpreted as distilling the chat vector from parameter space to text space, enabling the transfer of instruction-tuning capabilities across models of different architectures.
- Abstract(参考訳): 高い性能の大規模言語モデル(LLM)によって生成された応答を命令チューニングに利用することは、広く採用されているアプローチである。
しかし、既存の文献は、LLM生成応答の特性を軽視しており、事前学習中に得られた世界知識と、後学習時に取得した指導追従能力とを要約している。
我々は、事前学習した知識から命令追従能力を引き離すことで、命令チューニングの有効性が向上すると仮定する。
そこで本研究では,後学習モデルと事前学習モデルとの間で,応答生成時にコントラストデコードを適用する手法であるCoDITを提案する。
この方法は、2つのモデル間で共有される事前訓練された知識を抑えつつ、ポストトレーニングによって得られた命令追従動作を増幅し、結果として命令追従能力をより純粋に反映する応答をもたらす。
実験の結果、CoDITによって構築されたデータセットでトレーニングされたモデルは、直接生成されたレスポンスでトレーニングされたモデルよりも一貫して優れていた。
データセットをトレーニングすることで、既存の複数のベンチマークで利用可能な命令チューニングデータセットよりもパフォーマンスが向上します。
さらに,CoDITは,パラメータ空間からテキスト空間へのチャットベクトルの蒸留であり,異なるアーキテクチャのモデル間での命令調整能力の伝達を可能にすることを理論的かつ実証的に示す。
関連論文リスト
- FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale [56.03294218908334]
大規模言語モデル(LLM)は通常、自己監督型の"次の単語を予測する"目的を通じて事前訓練される。
モデルをユーザにとって有用なものにするために、命令と応答の教師付きトレーニング例からなる、はるかに少ない量の「インストラクションチューニング」データに基づいて、さらに訓練されている。
本稿では,インターネット規模の事前学習文書の知識を,数十億の合成指導と解答訓練ペアに変換する手法を提案する。
論文 参考訳(メタデータ) (2026-01-29T18:58:47Z) - Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング)は、ヒト/モデルなし合成データ合成法である。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。