Fugu-MT 論文翻訳(概要): Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning

論文の概要: Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning

arxiv url: http://arxiv.org/abs/2508.01543v1
Date: Sun, 03 Aug 2025 01:56:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.932363
Title: Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning
Title（参考訳）: Refine-n-Judge: LLM-Fine-Tuningのための高品質選好鎖のキュレート
Authors: Derin Cayir, Renjie Tao, Rashi Rungta, Kai Sun, Sean Chen, Haidar Khan, Minseok Kim, Julia Reinspach, Yue Liu,
Abstract要約: 大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
参考スコア（独自算出の注目度）: 14.254037571895404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable progress through preference-based fine-tuning, which critically depends on the quality of the underlying training data. While human feedback is essential for improving data quality, it is costly and does not scale well. In this paper, we introduce Refine-n-Judge, an automated iterative approach that leverages a single LLM as both a refiner and a judge to enhance dataset quality. Unlike existing iterative refinement methods, Refine-n-Judge employs an LLM to both generate refinements and explicitly evaluate each improvement, ensuring that every iteration meaningfully enhances the dataset without requiring additional human annotation or a separate reward model. At each step, the LLM refines a response and judges whether the refinement is an improvement over the previous answer. This process continues until the LLM prefers the initial answer over the refinement, indicating no further improvements. This produces sequences of increasing quality, preference-labeled responses ideal for fine-tuning. We demonstrate the effectiveness of Refine-n-Judge across a range of public datasets spanning five corpora, targeting tasks such as coding, math, and conversation. Models (Llama 3.1-8B and Llama 3.3-70B) fine-tuned on Refine-n-Judge-enhanced datasets were preferred by LLM judges in over 74% of comparisons against models tuned on the original dataset by GPT-4. Additionally, we report performance gains: +5% on AlpacaEval and AlpacaEval 2.0, and +19% on MT-Bench. Our results indicate that Refine-n-Judge produces high-quality datasets and scalable model improvements.
Abstract（参考訳）: 大規模言語モデル(LLM)は、基礎となるトレーニングデータの品質に大きく依存する好みベースの微調整を通じて、顕著な進歩を見せている。人間のフィードバックはデータ品質を改善するのに不可欠だが、コストがかかり、スケーラビリティが良くない。本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。既存の反復的精錬法とは異なり、Refine-n-JudgeはLLMを使用して精錬を発生させ、各改善を明示的に評価し、追加の人的アノテーションや別個の報酬モデルを必要とすることなく、各イテレーションがデータセットを有意に強化することを保証する。各ステップにおいて、LLMは応答を洗練し、改善が前の回答よりも改善されているかどうかを判断する。このプロセスは、LLMが改善よりも最初の回答を優先するまで継続し、さらなる改善は示さない。これにより、微調整に理想的な品質、嗜好ラベル付き応答のシーケンスが生成される。本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。モデル(Llama 3.1-8BとLlama 3.3-70B)は、GPT-4で調整されたモデルとの比較の74%以上において、LLMの審査員により、Refine-n-Judge-enhancedデータセットに微調整された。さらに,AlpacaEvalとAlpacaEval 2.0は+5%,MT-Benchは+19%,性能向上が報告されている。以上の結果から,Refine-n-Judgeは高品質なデータセットとスケーラブルなモデル改善を実現することが示唆された。

関連論文リスト

Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。両者の強みを生かしたハイブリッドソリューションを提案する。
論文参考訳（メタデータ） (2025-01-15T20:13:46Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Learning to Summarize from LLM-generated Feedback [18.937441310579164]
本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。我々の実験は、フィードバックの質、寸法、粒度が好みの学習にどのように影響するかを示す。 SummLlama3-8bはLlama3-70bの約10倍の精度で人為的な要約を生成するモデルである。
論文参考訳（メタデータ） (2024-10-17T01:01:09Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。 4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。 SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文参考訳（メタデータ） (2024-10-09T14:57:31Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。