論文の概要: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.24175v1
- Date: Thu, 31 Oct 2024 17:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:25.746053
- Title: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
- Title(参考訳): 制約付きバックトランスレーションは大規模言語モデルに追従した複雑な命令を改善する
- Authors: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li,
- Abstract要約: 大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
- 参考スコア(独自算出の注目度): 55.60192044049083
- License:
- Abstract: Large language models (LLMs) struggle to follow instructions with complex constraints in format, length, etc. Following the conventional instruction-tuning practice, previous works conduct post-training on complex instruction-response pairs generated by feeding complex instructions to advanced LLMs. However, even advanced LLMs cannot follow complex instructions well, thus limiting the quality of generated data. In this work, we find that existing datasets inherently contain implicit complex constraints and propose a novel data generation technique, constraint back-translation. Specifically, we take the high-quality instruction-response pairs in existing datasets and only adopt advanced LLMs to add complex constraints already met by the responses to the instructions, which naturally reduces costs and data noise. In the experiments, we adopt Llama3-70B-Instruct to back-translate constraints and create a high-quality complex instruction-response dataset, named CRAB. We present that post-training on CRAB improves multiple backbone LLMs' complex instruction-following ability, evaluated on extensive instruction-following benchmarks. We further find that constraint back-translation also serves as a useful auxiliary training objective in post-training. Our code, data, and models will be released to facilitate future research.
- Abstract(参考訳): 大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の命令チューニングの実践に続いて、先進的なLCMに複雑な命令を供給して生成された複雑な命令応答ペアの後処理を行う。
しかし、高度なLCMでさえ複雑な命令をうまく従えないため、生成されたデータの品質は制限される。
本研究では,既存のデータセットには暗黙の複雑な制約が本質的に含まれており,新しいデータ生成手法である制約バック翻訳を提案する。
具体的には、既存のデータセットの高品質な命令応答ペアを取り入れ、高度なLCMを採用して、命令に対する応答にすでに満たされている複雑な制約を追加することで、コストとデータノイズを自然に低減する。
実験では,制約のバックトランスレートにLlama3-70B-Instructを採用し,CRABと呼ばれる高品質な複雑な命令応答データセットを作成する。
CRAB のポストトレーニングにより,複数のバックボーン LLM の複雑な命令追従能力が向上し,広範囲な命令追従ベンチマークで評価できることを示す。
さらに,制約バックトランスレーションは,ポストトレーニングにおいて有用な補助訓練の目的でもあることも確認した。
私たちのコード、データ、モデルは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Evolutionary Contrastive Distillation for Language Model Alignment [35.94171633370035]
進化的コントラスト蒸留(ECD)は高品質な合成嗜好データを生成する新しい方法である。
提案手法は,現在のSOTA 7Bモデルの複雑な命令追従性能を超える7Bモデルを生成する。
論文 参考訳(メタデータ) (2024-10-10T01:04:03Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models [43.869374263102934]
複雑な制約の強化に有効なトレーニングデータについて検討する。
複数の制約を含む命令でLLMを訓練することで、複雑な命令の理解が促進されることが判明した。
提案手法は,汎用的な命令に従うモデルの能力を向上し,ドメイン外,ドメイン内,対向的な設定で効果的に一般化する。
論文 参考訳(メタデータ) (2024-04-24T12:51:14Z) - Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。
複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。
いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文 参考訳(メタデータ) (2024-04-03T15:55:39Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。