論文の概要: Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis
- arxiv url: http://arxiv.org/abs/2502.04511v3
- Date: Sat, 11 Oct 2025 16:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.140337
- Title: Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis
- Title(参考訳): サンプルレベルフィードバックを超えて:参照レベルフィードバックを使ってデータ合成をガイドする
- Authors: Shuhaib Mehri, Xiusi Chen, Heng Ji, Dilek Hakkani-Tür,
- Abstract要約: 参照レベルフィードバック(Reference-Level Feedback)は、厳選された参照サンプルから望ましい特徴を抽出し、高品質な命令応答対の合成を導くパラダイムである。
実験により、参照レベルフィードバックは従来のサンプルレベルのフィードバック手法を一貫して上回り、モデルアーキテクチャ全体にわたって一般化し、高品質で多様なデータを低コストで生成することを示した。
- 参考スコア(独自算出の注目度): 54.15152681093108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality instruction-tuning data is crucial for developing Large Language Models (LLMs) that can effectively navigate real-world tasks and follow human instructions. While synthetic data generation offers a scalable approach for creating such datasets, it imposes a quality ceiling where models trained on the data cannot outperform the LLM generating it. To overcome this limitation, we introduce Reference-Level Feedback, a paradigm that extracts desirable characteristics from carefully curated reference samples to guide the synthesis of higher-quality instruction-response pairs. Using this approach, we synthesize REFED, a dataset of 10K instruction-response pairs. Fine-tuning Llama-3.1-8B-Instruct and Mistral-7B-Instruct on REFED demonstrate state-of-the-art performance among similarly sized models, notably reaching a 43.96\% length-controlled win-rate on AlpacaEval 2.0. Extensive experiments demonstrate that Reference-Level Feedback consistently outperforms traditional sample-level feedback methods, generalizes across model architectures, and produces high-quality and diverse data at low cost.
- Abstract(参考訳): 現実世界のタスクを効果的にナビゲートし、人間の指示に従うことができる大規模言語モデル(LLM)を開発するためには、高品質なインストラクションチューニングデータが不可欠である。
合成データ生成はそのようなデータセットを作成するためのスケーラブルなアプローチを提供するが、データに基づいてトレーニングされたモデルがLLMの生成を上回らない品質の天井を課す。
この制限を克服するために、我々は参照レベルフィードバック(Reference-Level Feedback)を紹介した。これは、注意深くキュレートされた参照サンプルから望ましい特徴を抽出し、高品質な命令応答対の合成を導くパラダイムである。
このアプローチを用いて、10K命令応答対のデータセットであるREFEDを合成する。
微調整のLlama-3.1-8B-InstructとMistral-7B-Instruct on REFEDは同様の大きさのモデルで最先端の性能を示し、特にAlpacaEval 2.0では43.96\%の勝利率に達した。
大規模な実験により、参照レベルフィードバックは従来のサンプルレベルのフィードバック手法を一貫して上回り、モデルアーキテクチャ全体にわたって一般化し、高品質で多様なデータを低コストで生成することを示した。
関連論文リスト
- Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。
提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。
提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-12-06T23:36:36Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - DSF-GAN: DownStream Feedback Generative Adversarial Network [0.07083082555458872]
我々はDSF-GAN(DownStream Feedback Generative Adversarial Network)と呼ばれる新しいアーキテクチャを提案する。
DSF-GANは、トレーニング中に下流予測モデルからのフィードバックを取り入れて、ジェネレータの損失関数を貴重な情報で強化する。
本実験では, DSF-GANで生成した合成試料を, フィードバックのない同一のGANアーキテクチャで生成したものと比較して, モデル性能の向上を実証した。
論文 参考訳(メタデータ) (2024-03-27T05:41:50Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Abstractive Summarization for Low Resource Data using Domain Transfer
and Data Synthesis [1.148539813252112]
本稿では,近年の抽象的な要約手法の性能向上のために,ドメイン転送とデータ合成について検討する。
新聞データに基づいて訓練された美術モデルのチューニング状態は、学生の反射データの性能を高める可能性があることを示す。
トレーニングに組み込むとROUGEスコアがさらに増加するテンプレートベースの新しいデータを合成するモデルを提案する。
論文 参考訳(メタデータ) (2020-02-09T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。