論文の概要: Generative Active Testing: Efficient LLM Evaluation via Proxy Task Adaptation
- arxiv url: http://arxiv.org/abs/2603.19264v1
- Date: Thu, 26 Feb 2026 22:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.804228
- Title: Generative Active Testing: Efficient LLM Evaluation via Proxy Task Adaptation
- Title(参考訳): Generative Active Testing: Proxy Task Adaptationによる効率的なLCM評価
- Authors: Aashish Anantha Ramakrishnan, Ardavan Saeedi, Hamid Reza Hassanzadeh, Fazlolah Mohaghegh, Dongwon Lee,
- Abstract要約: アクティブなサンプル選択のための既存のフレームワークは、生成的質問回答タスクを限定的にサポートする。
本稿では,Large Language Models (LLM) を利用した不確実性を考慮したGAT(Generative Active Testing)を提案する。
我々のゼロショット取得機能は従来のサンプリングベースラインに比べて40%の誤差を低減し、コスト効率のよいモデルベンチマークのためのスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.370860526262166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of pre-trained Large Language Models (LLM), there exists a high demand for task-specific test sets to benchmark their performance in domains such as healthcare and biomedicine. However, the cost of labeling test samples while developing new benchmarks poses a significant challenge, especially when expert annotators are required. Existing frameworks for active sample selection offer limited support for generative Question Answering tasks, where option dynamics can affect model decision boundaries. In this paper, we present Generative Active Testing (GAT), an uncertainty-aware acquisition framework leveraging LLMs as surrogates for informing the sample selection process. Using a novel Statement Adaptation Module, we modify generative tasks into a pseudo-classification format, enabling the capture of sample-level uncertainties across unlabeled candidates. Our zero-shot acquisition functions reduce estimation error by ~40% compared to traditional sampling baselines, offering a scalable solution for cost-effective model benchmarking.
- Abstract(参考訳): LLM(Pre-trained Large Language Models)が広く採用されているため、医療やバイオメディシンといった分野において、そのパフォーマンスをベンチマークするタスク固有のテストセットの需要が高まっている。
しかし、新しいベンチマークの開発中にテストサンプルをラベル付けするコストは、特に専門家アノテータが必要な場合、大きな課題となる。
アクティブなサンプル選択のための既存のフレームワークは、オプションダイナミクスがモデル決定の境界に影響を及ぼすような、生成的な質問回答タスクを限定的にサポートする。
本稿では,LLMをサロゲートとして活用し,サンプル選択プロセスのインフォームを行う不確実性を考慮した,GAT(Generative Active Testing)を提案する。
新規なステートメント適応モジュールを用いて、生成タスクを擬似分類形式に修正し、ラベルのない候補に対してサンプルレベルの不確実性を捕捉する。
ゼロショット取得関数は、従来のサンプリングベースラインと比較して推定誤差を約40%削減し、コスト効率のよいモデルベンチマークのためのスケーラブルなソリューションを提供する。
関連論文リスト
- Select, Label, Evaluate: Active Testing in NLP [13.476392417672812]
アクティブテスト(Active Testing)は、アノテーションの最も有益なテストサンプルを選択するフレームワークである。
ラベル付け予算が与えられたら、モデルのパフォーマンスを最も見積もるサブセットを選択することを目的としています。
実験では、最大95%のアノテーションの削減を示し、パフォーマンス推定精度は、完全なテストセットから1%以内である。
論文 参考訳(メタデータ) (2026-03-23T11:28:57Z) - Table Detection with Active Learning [1.9881456274482427]
アクティブラーニングは、最も有益なサンプルを選択することで、アノテーションコストを最小限に抑える、有望なソリューションである。
提案手法は,モデル一般化を改善する代表例の選択を保証する。
その結果,ALに基づくサンプル選択は,ランダムサンプリングよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-09-24T11:22:30Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。