論文の概要: EvalAgent: Discovering Implicit Evaluation Criteria from the Web
- arxiv url: http://arxiv.org/abs/2504.15219v1
- Date: Mon, 21 Apr 2025 16:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:35:20.879956
- Title: EvalAgent: Discovering Implicit Evaluation Criteria from the Web
- Title(参考訳): EvalAgent: Webから不適切な評価基準を発見する
- Authors: Manya Wadhwa, Zayne Sprague, Chaitanya Malaviya, Philippe Laban, Junyi Jessy Li, Greg Durrett,
- Abstract要約: EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。
EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。
我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
- 参考スコア(独自算出の注目度): 82.82096383262068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of language model outputs on structured writing tasks is typically conducted with a number of desirable criteria presented to human evaluators or large language models (LLMs). For instance, on a prompt like "Help me draft an academic talk on coffee intake vs research productivity", a model response may be evaluated for criteria like accuracy and coherence. However, high-quality responses should do more than just satisfy basic task requirements. An effective response to this query should include quintessential features of an academic talk, such as a compelling opening, clear research questions, and a takeaway. To help identify these implicit criteria, we introduce EvalAgent, a novel framework designed to automatically uncover nuanced and task-specific criteria. EvalAgent first mines expert-authored online guidance. It then uses this evidence to propose diverse, long-tail evaluation criteria that are grounded in reliable external sources. Our experiments demonstrate that the grounded criteria produced by EvalAgent are often implicit (not directly stated in the user's prompt), yet specific (high degree of lexical precision). Further, EvalAgent criteria are often not satisfied by initial responses but they are actionable, such that responses can be refined to satisfy them. Finally, we show that combining LLM-generated and EvalAgent criteria uncovers more human-valued criteria than using LLMs alone.
- Abstract(参考訳): 構造化文字タスクにおける言語モデル出力の評価は、典型的には人間の評価者や大規模言語モデル(LLM)に望ましい基準が提示されている。
例えば、"Help me draft an academic talk about coffee intake vs Research productivity"のようなプロンプトでは、正確さや一貫性といった基準でモデル応答を評価することができます。
しかし、高品質なレスポンスは、単なる基本的なタスク要件を満たす以上のことをすべきです。
このクエリに対する効果的な応答には、説得力のあるオープニング、明確な研究質問、テイクアウトなど、学術的な講演のクインテシデントな特徴を含めるべきである。
これらの暗黙的な基準を識別するために、ニュアンスとタスク固有の基準を自動的に発見するように設計された新しいフレームワークであるEvalAgentを紹介します。
EvalAgentは、まず専門家によるオンラインガイダンスを掘り下げる。
そして、この証拠を用いて、信頼性のある外部ソースに根ざした多種多様な長期評価基準を提案する。
実験の結果,EvalAgentが生み出す基準は暗黙的(ユーザのプロンプトに直接記述されていない)であるが,特定の(高い語彙精度)であることがわかった。
さらに、EvalAgentの基準は初期応答によって満たされないことが多いが、それらは実行可能であり、それらを満たすために応答を洗練することができる。
最後に、LLM生成基準とEvalAgent基準を組み合わせることで、LLM単独の使用よりも人的価値の高い基準が明らかになることを示す。
関連論文リスト
- CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - LLMCRIT: Teaching Large Language Models to Use Criteria [38.12026374220591]
本稿では,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるフレームワークを提案する。
特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。
その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
論文 参考訳(メタデータ) (2024-03-02T02:25:55Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - EvalLM: Interactive Evaluation of Large Language Model Prompts on
User-Defined Criteria [43.944632774725484]
本稿では,ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復的に精錬するインタラクティブシステムであるEvalLMを提案する。
自然言語の基準を記述することで、ユーザはシステムのLCMベースの評価器を使って、どのプロンプトがエキサイティングか、失敗かを概観することができる。
比較研究では、EvalLMは手動による評価と比較して、参加者がより多様な基準を策定し、アウトプットの2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。
論文 参考訳(メタデータ) (2023-09-24T13:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。