Fugu-MT 論文翻訳(概要): Evolutionary Contrastive Distillation for Language Model Alignment

論文の概要: Evolutionary Contrastive Distillation for Language Model Alignment

arxiv url: http://arxiv.org/abs/2410.07513v1
Date: Thu, 10 Oct 2024 01:04:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 16:46:37.130616
Title: Evolutionary Contrastive Distillation for Language Model Alignment
Title（参考訳）: 言語モデルアライメントのための進化的コントラスト蒸留法
Authors: Julian Katz-Samuels, Zheng Li, Hyokun Yun, Priyanka Nigam, Yi Xu, Vaclav Petricek, Bing Yin, Trishul Chilimbi,
Abstract要約: 進化的コントラスト蒸留(ECD)は高品質な合成嗜好データを生成する新しい方法である。提案手法は,現在のSOTA 7Bモデルの複雑な命令追従性能を超える7Bモデルを生成する。
参考スコア（独自算出の注目度）: 35.94171633370035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability of large language models (LLMs) to execute complex instructions is essential for their real-world applications. However, several recent studies indicate that LLMs struggle with challenging instructions. In this paper, we propose Evolutionary Contrastive Distillation (ECD), a novel method for generating high-quality synthetic preference data designed to enhance the complex instruction-following capability of language models. ECD generates data that specifically illustrates the difference between a response that successfully follows a set of complex instructions and a response that is high-quality, but nevertheless makes some subtle mistakes. This is done by prompting LLMs to progressively evolve simple instructions to more complex instructions. When the complexity of an instruction is increased, the original successful response to the original instruction becomes a "hard negative" response for the new instruction, mostly meeting requirements of the new instruction, but barely missing one or two. By pairing a good response with such a hard negative response, and employing contrastive learning algorithms such as DPO, we improve language models' ability to follow complex instructions. Empirically, we observe that our method yields a 7B model that exceeds the complex instruction-following performance of current SOTA 7B models and is competitive even with open-source 70B models.
Abstract（参考訳）: 大規模言語モデル(LLM)が複雑な命令を実行する能力は、現実のアプリケーションには不可欠である。しかし、最近のいくつかの研究は、LSMは挑戦的な指示に苦しむことを示唆している。本稿では,言語モデルの複雑な命令追従能力を高めるために設計された,高品質な合成選好データを生成するための新しい手法である進化コントラスト蒸留(ECD)を提案する。 ECDは、複雑な命令の集合にうまく従う応答と、高品質だが微妙なミスを犯す応答との差を具体的に示すデータを生成する。これはLSMがより複雑な命令へと徐々に進化するように促すことによって実現される。命令の複雑さが増加すると、元の命令に対する最初の成功した応答は、新しい命令に対する"強烈な"応答となり、ほとんどの場合、新しい命令の要求を満たすが、ほとんど1つか2つを欠いている。このような強い負の応答と良い応答をペアリングし、DPOのような対照的な学習アルゴリズムを用いることで、複雑な命令に従う言語モデルの能力を向上させる。実験により,提案手法は,既存のSOTA 7Bモデルの複雑な命令追従性能を超え,オープンソースの70Bモデルと競合する7Bモデルを生成する。

関連論文リスト

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
AIR: Complex Instruction Generation via Automatic Iterative Refinement [29.639832268719363]
複雑な命令を生成するための現在のアプローチは、しばしば現在の命令要求とは無関係である。本稿では,制約付き複雑な命令を生成するための,新しい反復修正フレームワークを提案する。 10Kの複雑な命令でAIR-10Kデータセットを構築し、我々のアプローチで生成された命令は、複雑な命令に従うモデルの能力を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-25T02:39:57Z)
Smaller Language Models Are Better Instruction Evolvers [10.587052565101844]
小さい言語モデル(SLM)は大きな言語モデル(LLM)よりも効果的な命令を合成できる命令データの有効性をより正確に評価するために,インストラクション複合認識IFD(IC-IFD)を提案する。
論文参考訳（メタデータ） (2024-12-15T16:07:48Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
TaCIE: Enhancing Instruction Comprehension in Large Language Models through Task-Centred Instruction Evolution [27.949846287419998]
TaCIEは、単に進化したシード命令から、よりダイナミックで包括的な要素の組み合わせへと、命令の進化を再定義する。複数の領域にまたがってTaCIEを適用することで、これらの進化した命令で微調整されたLLMは、従来の手法で調整された命令よりも大幅に性能が向上した。
論文参考訳（メタデータ） (2024-09-18T10:06:28Z)
Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。 GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-06-01T04:25:26Z)
Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文参考訳（メタデータ） (2024-04-03T15:55:39Z)
EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models [37.80143756214926]
EasyInstructは、Large Language Models (LLMs)のための使いやすい命令処理フレームワークである。 EasyInstructは命令生成、選択、プロンプトをモジュール化し、それらの組み合わせと相互作用も考慮する。
論文参考訳（メタデータ） (2024-02-05T14:33:56Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文参考訳（メタデータ） (2023-06-21T20:47:23Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。