論文の概要: Interactive Evaluation Requires a Design Science
- arxiv url: http://arxiv.org/abs/2605.17829v1
- Date: Mon, 18 May 2026 04:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.802683
- Title: Interactive Evaluation Requires a Design Science
- Title(参考訳): インタラクティブな評価はデザイン科学を必要とする
- Authors: Keyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei,
- Abstract要約: 大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
- 参考スコア(独自算出の注目度): 90.62695599188204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.
- Abstract(参考訳): AI評価は構造的な変化を受けている。
大規模な言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとしてデプロイされることが多いが、多くの評価プラクティスは、レスポンス中心のベンチマーク(例えば、固定入力、独立した出力、単一のレスポンスから得られる結果判断)から仮定を継承している。
ベンチマークは、どのインタラクションアーティファクトを認めるか、どのようにトラジェクトリがスコアされるか、結果がサポートされていると主張するかによって異なります。
本論文では,対話的評価は,単にエージェントベンチマークの新たなファミリではなく,原則的評価パラダイムとして扱うべきであると論じている。
従来の評価パラダイムを採用するだけでは十分ではありません。
我々は,評価を,証拠から判断への自律的なマッピングとして定義し,このマッピングの両側にインタラクティブな評価が変化することを示し,その証拠が相互に生成する軌跡となり,評価手順はプロセス,回復可能性,コーディネート,堅牢性,システムレベルのパフォーマンスを評価する必要がある。
この定義に基づいて、2軸分類法を提案し、設計原則と報告基準を導出し、代表的シナリオを検証し、長期にわたる評価課題が軌道レベルでどのように出現するかを分析する。
関連論文リスト
- Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation [50.85337196571056]
テキスト・ツー・イメージ(T2I)生成は急速に進歩し、モデル間の性能差が狭まるにつれて信頼性の高い評価が重要になった。
既存の評価慣行は、通常、Likert-scale や binary question answering (BQA) のような一様アノテーション機構を適用している。
我々は,T2I評価を,各評価スキルの根底にある特徴を反映したアノテーション戦略のレンズを通して再検討する。
論文 参考訳(メタデータ) (2026-05-13T09:14:31Z) - Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility [9.928824688627037]
我々は、生成AI評価は、静的なベンチマーク中心の透明性から、人間の成果軌跡に根ざしたステークホルダー、ゴール、コンテキスト条件付きユーティリティ透明性へのパラダイムシフトを必要とすると論じる。
SCU-GenEvalは,利害関係者と利害関係者のゴールマッピング,構成指標仕様,メカニズムモデリング,長手効用測定からなる4段階評価フレームワークである。
論文 参考訳(メタデータ) (2026-05-07T18:56:07Z) - Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems [0.0]
この論文は、生成的AIは複数の社会技術システムとして評価されなければならないと主張している。
MaSH Loopsは、モデル、ユーザ、組織が意味と価値を共構築する方法をトレースするフレームワークである。
World Values Benchmarkは、World Values Surveyのデータに基づく分散アプローチを導入している。
論文 参考訳(メタデータ) (2026-04-22T13:29:33Z) - A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。
本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T15:52:22Z) - The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。