論文の概要: RoSE: Round-robin Synthetic Data Evaluation for Selecting LLM Generators without Human Test Sets
- arxiv url: http://arxiv.org/abs/2510.06143v1
- Date: Tue, 07 Oct 2025 17:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.378058
- Title: RoSE: Round-robin Synthetic Data Evaluation for Selecting LLM Generators without Human Test Sets
- Title(参考訳): RoSE:人間テストセットなしでLLM発電機を選択するためのラウンドロビン合成データ評価
- Authors: Jan Cegin, Branislav Pecher, Ivan Srba, Jakub Simko,
- Abstract要約: ラウンドロビン合成データ評価(RoSE)は、人間のテストセットなしで最適なジェネレータを選択するためのプロキシメトリックである。
6言語、11言語、および3つのタスクにわたって、RoSEは他のどの言語よりも最適なジェネレータを特定する。
RoSEは、人間のテストデータのパフォーマンスと正の相関を達成できる唯一の指標である。
- 参考スコア(独自算出の注目度): 9.781880183454502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are powerful generators of synthetic data, which are used for training smaller, specific models. This is especially valuable for low-resource languages, where human-labelled data is scarce but LLMs can still produce high-quality text. However, LLMs differ in how useful their outputs are for training. Selecting the best LLM as a generator is challenging because extrinsic evaluation requires costly human annotations (which are often unavailable for low-resource languages), while intrinsic metrics correlate poorly with downstream performance. We introduce Round robin Synthetic data Evaluation (RoSE), a proxy metric for selecting the best LLM generator without human test sets. RoSE trains a small model on the outputs of a candidate generator (LLM) and then evaluates it on generated synthetic examples from all other candidate LLMs. The final RoSE score is the mean performance of this small model. Across six LLMs, eleven languages, and three tasks (sentiment, topic, intent), RoSE identifies the optimal generator more often than any other intrinsic heuristics. RoSE outperforms intrinsic heuristics and comes within 0.76 percentage points of the optimal generator baseline. This result is measured in terms of downstream performance, obtained by training a small model on the chosen generator's outputs (optimal vs. proxy metric selected) and evaluating it on human-labelled test data. Additionally, RoSE is the only metric to achieve a positive correlation with performance on human test data.
- Abstract(参考訳): LLMは、より小さな特定のモデルを訓練するために使用される合成データの強力なジェネレータである。
これは、人間のラベル付きデータが乏しい低リソース言語では特に有用であるが、LLMは高品質なテキストを生成することができる。
しかし、LLMの出力がトレーニングにどの程度有用かは異なる。
ジェネレータとして最高のLCMを選択することは、外部評価にはコストのかかる人的アノテーション(低リソース言語では利用できないことが多い)が必要であり、本質的なメトリクスは下流のパフォーマンスとあまり相関しないため、難しい。
本稿では,人間のテストセットを使わずに最高のLCM生成器を選択するためのプロキシ指標であるRoSE(Roundroin Synthetic Data Evaluation)を紹介する。
RoSEは、候補生成器(LLM)の出力に関する小さなモデルを訓練し、他の全ての候補LLMから生成された合成例に基づいて評価する。
最後のRoSEスコアは、この小さなモデルの平均的なパフォーマンスです。
6つのLSM、11の言語、および3つのタスク(センチメント、トピック、インテント)の中で、RoSEは他のどの固有のヒューリスティックよりも頻繁に最適なジェネレータを特定する。
RoSEは固有のヒューリスティックよりも優れており、最適なジェネレータベースラインの0.76ポイント以内である。
この結果は、選択したジェネレータの出力(最適対プロキシメトリックの選択)の小さなモデルをトレーニングし、人為的なテストデータで評価することで、下流のパフォーマンスを計測する。
加えて、RoSEは人間のテストデータのパフォーマンスと正の相関を達成できる唯一の指標である。
関連論文リスト
- Deconstructing Self-Bias in LLM-generated Translation Benchmarks [36.3437316867272]
大きな言語モデル(LLM)は、遅くてコストのかかる人間のキュレーションに代わるスケーラブルな代替品として登場した。
LLMは、ベンチマークを作成するモデルを体系的に好んだ。
このバイアスは、生成されたテストデータと評価方法の2つのソースに由来する。
論文 参考訳(メタデータ) (2025-09-30T17:48:35Z) - Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
両者の強みを生かしたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-15T20:13:46Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。