論文の概要: Generate, Evaluate, Iterate: Synthetic Data for Human-in-the-Loop Refinement of LLM Judges
- arxiv url: http://arxiv.org/abs/2511.04478v1
- Date: Thu, 06 Nov 2025 15:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.487033
- Title: Generate, Evaluate, Iterate: Synthetic Data for Human-in-the-Loop Refinement of LLM Judges
- Title(参考訳): LLM審査員の身近なリファインメントのための合成データの生成, 評価, イテレーション
- Authors: Hyo Jin Do, Zahra Ashktorab, Jasmina Gajcin, Erik Miehling, Martín Santillán Cooper, Qian Pan, Elizabeth M. Daly, Werner Geyer,
- Abstract要約: 合成データ生成をLLM-as-a-judgeワークフローに統合するツールを提案する。
ドメイン、ペルソナ、長さ、望ましい結果(境界ケースを含む)で、カスタマイズされた、挑戦的なテストケースを作成することができる。
生成した合成データは, 評価基準の精細化と人間の嗜好の整合性を両立させるために手作りデータとして有効であることが証明された。
- 参考スコア(独自算出の注目度): 11.924947088975722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The LLM-as-a-judge paradigm enables flexible, user-defined evaluation, but its effectiveness is often limited by the scarcity of diverse, representative data for refining criteria. We present a tool that integrates synthetic data generation into the LLM-as-a-judge workflow, empowering users to create tailored and challenging test cases with configurable domains, personas, lengths, and desired outcomes, including borderline cases. The tool also supports AI-assisted inline editing of existing test cases. To enhance transparency and interpretability, it reveals the prompts and explanations behind each generation. In a user study (N=24), 83% of participants preferred the tool over manually creating or selecting test cases, as it allowed them to rapidly generate diverse synthetic data without additional workload. The generated synthetic data proved as effective as hand-crafted data for both refining evaluation criteria and aligning with human preferences. These findings highlight synthetic data as a promising alternative, particularly in contexts where efficiency and scalability are critical.
- Abstract(参考訳): LLM-as-a-judgeパラダイムは、フレキシブルでユーザ定義の評価を可能にするが、その有効性は、精製基準のための多種多様な代表データの不足によって制限されることが多い。
合成データ生成をLLM-as-a-judgeワークフローに統合し、ユーザが設定可能なドメイン、ペルソナ、長さ、望ましい結果を含む、設定可能なテストケースを作成できるようにする。
このツールはAIによる既存のテストケースのインライン編集もサポートする。
透明性と解釈可能性を高めるために、各世代の背後にあるプロンプトと説明を明らかにする。
ユーザ調査(N=24)では、テストケースを手作業で作成または選択するよりも、参加者の83%がツールを好んだ。
生成した合成データは, 評価基準の精細化と人間の嗜好の整合性を両立させるために手作りデータとして有効であることが証明された。
これらの知見は、特に効率性とスケーラビリティが重要である状況において、有望な代替手段として合成データを強調している。
関連論文リスト
- Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Privacy-Preserving Synthetic Review Generation with Diverse Writing Styles Using LLMs [6.719863580831653]
LLM(Large Language Models)によって生成された合成データは、モデルトレーニングを容易にするために、実世界のデータに代わる費用効率が高くスケーラブルな代替手段を提供する。
我々は,複数の最先端LCMから生成される合成データセットの多様性(言語表現,感情,ユーザ視点)を定量的に評価する。
評価結果を参考に,レビュアーのプライバシを保ちつつ,合成レビューの多様性を高めるために,プロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-24T03:12:16Z) - FASTGEN: Fast and Cost-Effective Synthetic Tabular Data Generation with LLMs [3.703188184729035]
合成データ生成は、現実のデータ収集と使用がコストと不足によって制限されるシナリオにおいて、重要なソリューションである。
個々のレコードを生成するために大きな言語モデルを直接使用する既存のアプローチは、禁止時間とコスト負担を個別に課している。
LLMを利用して各フィールドの分布を再利用可能なサンプリングスクリプトに推論してエンコードする,現実的な表形式データ合成のための高速で費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2025-07-21T17:51:46Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。