論文の概要: Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models
- arxiv url: http://arxiv.org/abs/2407.21417v1
- Date: Wed, 31 Jul 2024 08:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:32:01.701575
- Title: Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models
- Title(参考訳): 鎖のダンシング:言語モデルにおける指示の追従と忠実さの再検討
- Authors: Zhengxuan Wu, Yuhao Zhang, Peng Qi, Yumo Xu, Rujun Han, Yian Zhang, Jifan Chen, Bonan Min, Zhiheng Huang,
- Abstract要約: 現代言語モデル(LM)は忠実でありながら人間の指示に従う必要があることを示す。
ReSet(Continuousd Self-Instruction Tuning)におけるリジェクションサンプリングを利用した簡易かつ効果的な手法を提案する。
高品質なReSetをトレーニングするほど、より少ないデータ(3倍少ないデータ)が優れた結果をもたらすことが分かりました。
- 参考スコア(独自算出の注目度): 34.13519934563742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models (LMs) need to follow human instructions while being faithful; yet, they often fail to achieve both. Here, we provide concrete evidence of a trade-off between instruction following (i.e., follow open-ended instructions) and faithfulness (i.e., ground responses in given context) when training LMs with these objectives. For instance, fine-tuning LLaMA-7B on instruction following datasets renders it less faithful. Conversely, instruction-tuned Vicuna-7B shows degraded performance at following instructions when further optimized on tasks that require contextual grounding. One common remedy is multi-task learning (MTL) with data mixing, yet it remains far from achieving a synergic outcome. We propose a simple yet effective method that relies on Rejection Sampling for Continued Self-instruction Tuning (ReSet), which significantly outperforms vanilla MTL. Surprisingly, we find that less is more, as training ReSet with high-quality, yet substantially smaller data (three-fold less) yields superior results. Our findings offer a better understanding of objective discrepancies in alignment training of LMs.
- Abstract(参考訳): 現代の言語モデル(LM)は、忠実である一方で人間の指示に従う必要があるが、それらが両方を達成するのに失敗することが多い。
ここでは、これらの目的によりLMを訓練する際の指示(すなわち、オープンエンドの指示に従う)と忠実(すなわち、与えられた文脈における地上応答)のトレードオフの具体的な証拠を提供する。
例えば、データセットに従って命令を微調整するLLaMA-7Bは、信頼性を低下させる。
逆に、命令チューニングされたVicuna-7Bは、コンテキストグラウンドを必要とするタスクにさらなる最適化を行うと、次の命令で性能が低下することを示している。
一般的な治療法は、データミキシングを伴うマルチタスク学習(MTL)であるが、相乗効果を得るには程遠い。
本稿では,Vanilla MTLを著しく上回るRejection Smpling for Continued Self-Instruction Tuning(ReSet)を提案する。
驚くべきことに、ReSetを高品質でトレーニングするほど、より少ないデータ(3倍少ないデータ)が優れた結果をもたらすことがわかりました。
本研究は, LMのアライメントトレーニングにおいて, 目的の相違点をよりよく理解するものである。
関連論文リスト
- RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning [35.446870721902904]
エージェントとしてデプロイされる大規模言語モデル(LLM)は、必要な手動のエンゲージメントを最小限に抑えながら、複数のステップでユーザ指定タスクを解決する。
コード合成の領域における実行フィードバックを活用するためのモデル学習のためのエンドツーエンド強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T23:25:17Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [13.535110749767451]
キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-15T06:54:20Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。