論文の概要: Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis
- arxiv url: http://arxiv.org/abs/2502.04511v2
- Date: Fri, 14 Feb 2025 20:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:00.618551
- Title: Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis
- Title(参考訳): サンプルレベルフィードバックを超えて:参照レベルフィードバックを使ってデータ合成をガイドする
- Authors: Shuhaib Mehri, Xiusi Chen, Heng Ji, Dilek Hakkani-Tür,
- Abstract要約: LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。
最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。
本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
- 参考スコア(独自算出の注目度): 55.65459867300319
- License:
- Abstract: LLMs demonstrate remarkable capabilities in following natural language instructions, largely due to instruction-tuning on high-quality datasets. While synthetic data generation has emerged as a scalable approach for creating such datasets, maintaining consistent quality standards remains challenging. Recent approaches incorporate feedback to improve data quality, but typically operate at the sample level, generating and applying feedback for each response individually. In this work, we propose Reference-Level Feedback, a novel methodology that instead collects feedback based on high-quality reference samples from carefully curated seed data. We use this feedback to capture rich signals of desirable characteristics and propagate it throughout the data synthesis process. We present REFED, a dataset of 10K instruction-response pairs synthesized using such feedback. We demonstrate the effectiveness of our approach by showing that Llama-3.1-8B-Instruct finetuned on REFED achieves state-of-the-art performance among similar-sized SFT-based models on AlpacaEval 2.0 and strong results on Arena-Hard. Through extensive experiments, we show that our approach consistently outperforms traditional sample-level feedback methods with significantly fewer feedback collections and improves performance across different model architectures.
- Abstract(参考訳): LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。
このようなデータセットを作成するためのスケーラブルなアプローチとして合成データ生成が登場したが、一貫性のある品質標準を維持することは依然として難しい。
最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。
そこで本研究では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する手法であるReference-Level Feedbackを提案する。
このフィードバックを使って、望ましい特性のリッチな信号を捕捉し、データ合成プロセスを通して伝達します。
このようなフィードバックを用いて合成した10K命令応答対のデータセットREFEDを提案する。
Llama-3.1-8BをREFEDで微調整することにより,AlpacaEval 2.0上での類似SFTモデルとArna-Hard上での強靭な性能を実現することができることを示す。
広範にわたる実験により,本手法は従来型のサンプルレベルのフィードバック手法よりずっと優れており,フィードバックコレクションは著しく少なく,異なるモデルアーキテクチャにおける性能が向上していることがわかった。
関連論文リスト
- A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - DSF-GAN: DownStream Feedback Generative Adversarial Network [0.07083082555458872]
我々はDSF-GAN(DownStream Feedback Generative Adversarial Network)と呼ばれる新しいアーキテクチャを提案する。
DSF-GANは、トレーニング中に下流予測モデルからのフィードバックを取り入れて、ジェネレータの損失関数を貴重な情報で強化する。
本実験では, DSF-GANで生成した合成試料を, フィードバックのない同一のGANアーキテクチャで生成したものと比較して, モデル性能の向上を実証した。
論文 参考訳(メタデータ) (2024-03-27T05:41:50Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Abstractive Summarization for Low Resource Data using Domain Transfer
and Data Synthesis [1.148539813252112]
本稿では,近年の抽象的な要約手法の性能向上のために,ドメイン転送とデータ合成について検討する。
新聞データに基づいて訓練された美術モデルのチューニング状態は、学生の反射データの性能を高める可能性があることを示す。
トレーニングに組み込むとROUGEスコアがさらに増加するテンプレートベースの新しいデータを合成するモデルを提案する。
論文 参考訳(メタデータ) (2020-02-09T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。