Fugu-MT 論文翻訳(概要): Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

論文の概要: Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

arxiv url: http://arxiv.org/abs/2605.06856v2
Date: Mon, 11 May 2026 17:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 19:24:01.33628
Title: Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility
Title（参考訳）: ベンチマークがまだ測定されていない - 生成AIは実世界の実用性に対して評価されるべきである
Authors: Ishani Mondal, Shweta Bhardwaj,
Abstract要約: 我々は、生成AI評価は、静的なベンチマーク中心の透明性から、人間の成果軌跡に根ざしたステークホルダー、ゴール、コンテキスト条件付きユーティリティ透明性へのパラダイムシフトを必要とすると論じる。 SCU-GenEvalは,利害関係者と利害関係者のゴールマッピング,構成指標仕様,メカニズムモデリング,長手効用測定からなる4段階評価フレームワークである。
参考スコア（独自算出の注目度）: 9.928824688627037
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI systems achieve impressive performance on standard benchmarks yet fail to deliver real-world utility, a disconnect we identify across 28 deployment cases spanning education, healthcare, software engineering, and law. We argue that this benchmark utility gap arises from three recurring failures in evaluation practice: proxy displacement, temporal collapse, and distributional concealment. Motivated by these observations, we argue that generative AI evaluation requires a paradigm shift from static benchmark-centered transparency toward stakeholder, goal, and context-conditioned utility transparency grounded in human outcome trajectories. Existing evaluations primarily characterize properties of model outputs, while deployment success depends on whether interaction with AI improves stakeholders' ability to achieve their goals over time. The missing construct is therefore utility: the change in a stakeholder's capability induced through sustained interaction with an AI system within a deployment context. To operationalize this perspective, we propose SCU-GenEval, a four-stage evaluation framework consisting of stakeholder-goal mapping, construct-indicator specification, mechanism modeling, and longitudinal utility measurement. To make these stages practically deployable, we introduce three supporting instruments: structured deployment protocols, context-conditioned user simulators, and persona- and goal-conditioned proxy metrics. We conclude with domain-specific calls to action, arguing that progress in generative AI must be evaluated through measurable improvements in human outcomes rather than benchmark performance alone.
Abstract（参考訳）: 教育、医療、ソフトウェアエンジニアリング、法律にまたがる28のデプロイメントケースにまたがる接続を特定できる。このベンチマークユーティリティギャップは, プロキシ変位, 時間的崩壊, 分布隠蔽の3つの繰り返し発生する。これらの観察により、生成的AI評価には、静的なベンチマーク中心の透明性から、人間の成果軌道に基づくステークホルダー、ゴール、コンテキスト条件付きユーティリティ透明性へのパラダイムシフトが必要であると論じる。既存の評価は、主にモデル出力の特性を特徴づけるが、デプロイメントの成功は、AIとのインタラクションが利害関係者の目標達成能力を改善するかどうかに依存する。ステークホルダの能力の変化は、デプロイメントコンテキスト内のAIシステムとの持続的なインタラクションを通じて引き起こされる。そこで我々は,SCU-GenEvalを提案し,利害関係者のゴールマッピング,構成指標仕様,メカニズムモデリング,長手的ユーティリティ測定からなる4段階評価フレームワークを提案する。これらのステージを実際にデプロイ可能にするために,構造化デプロイメントプロトコル,コンテキスト条件のユーザシミュレータ,ペルソナとゴール条件のプロキシメトリクスという,3つの支援手段を導入する。我々は、生成AIの進歩は、ベンチマークパフォーマンスのみではなく、人間の成果の計測可能な改善を通じて評価されなければならない、と論じて、ドメイン固有の行動要求を締めくくった。

関連論文リスト

Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems [0.0]
この論文は、生成的AIは複数の社会技術システムとして評価されなければならないと主張している。 MaSH Loopsは、モデル、ユーザ、組織が意味と価値を共構築する方法をトレースするフレームワークである。 World Values Benchmarkは、World Values Surveyのデータに基づく分散アプローチを導入している。
論文参考訳（メタデータ） (2026-04-22T13:29:33Z)
ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文参考訳（メタデータ） (2026-03-30T15:06:41Z)
UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。 UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文参考訳（メタデータ） (2026-03-24T13:01:31Z)
Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文参考訳（メタデータ） (2026-03-05T13:14:41Z)
EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文参考訳（メタデータ） (2026-01-29T11:33:49Z)
Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods [30.612032540735402]
Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。 AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
論文参考訳（メタデータ） (2026-01-26T17:47:42Z)
The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文参考訳（メタデータ） (2025-12-03T21:34:09Z)
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。 RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文参考訳（メタデータ） (2025-09-29T15:07:28Z)
Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文参考訳（メタデータ） (2025-06-22T09:53:28Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。