Fugu-MT 論文翻訳(概要): Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

論文の概要: Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

arxiv url: http://arxiv.org/abs/2603.13294v3
Date: Wed, 18 Mar 2026 01:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.276128
Title: Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma
Title（参考訳）: 実世界のAI評価:FRAMEが意思決定者のジレンマを解決するための体系的証拠を生成する方法
Authors: Reva Schwartz, Gabriella Waters,
Abstract要約: 実世界AI計測評価フォーラム(FRAME) AIシステムの大規模な試行と、それらがコンテキストでどのように使用されるかの構造化された観察を組み合わせることを目指している。大規模なAI使用をリアルタイムでキャプチャするTesting Sandboxと、これらのトレースを実行可能なインジケータに変換するMetrics Hubを使用する。
参考スコア（独自算出の注目度）: 0.08594140167290099
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid expansion of AI deployments has put organizational leaders in a decision maker's dilemma: they must govern these technologies without systematic evidence of how systems behave in their own environments. Predominant evaluation methods generate scalable, abstract measures of model capabilities but smooth over the heterogeneity of real world use, while user focused testing reveals rich contextual detail yet remains small in scale and loosely coupled to the mechanisms that shape model behavior. The Forum for Real World AI Measurement and Evaluation (FRAME) addresses this gap by combining large scale trials of AI systems with structured observation of how they are used in context, the outcomes they generate, and how those outcomes arise. By tracing the path from an AI system's output through its practical use and downstream effects, FRAME turns the heterogeneity of AI in use into a measurable signal rather than a trade off for achieving scale. FRAME establishes two core assets to accomplish this: a Testing Sandbox that captures AI use under real workflows at scale and a Metrics Hub that translates those traces into actionable indicators.
Abstract（参考訳）: AIデプロイメントの急速な拡大は、組織リーダーを意思決定者のジレンマに陥らせている。優位な評価手法は、モデル能力のスケーラブルで抽象的な尺度を生成するが、実際の使用の異質性に対して滑らかである一方、ユーザ中心のテストでは、コンテキストの詳細が豊富であることは明らかだが、規模は小さく、モデルの振る舞いを形作るメカニズムと緩やかに結びついている。 The Forum for Real World AI Measurement and Evaluation (FRAME)は、AIシステムの大規模な試行と、それらがコンテキストでどのように使用されているか、どのように生成された結果、そしてそれらの結果が生じるかを構造化された観察を組み合わせることで、このギャップに対処する。 FRAMEは、AIシステムの出力から実際の使用と下流効果を通じて経路をトレースすることにより、使用するAIの不均一性を、スケールを達成するためのトレードオフではなく測定可能な信号に変換する。 FRAMEは、これを達成するための2つのコアアセットを確立する。大規模なワークフローでAIの使用をキャプチャするTesting Sandboxと、これらのトレースを実行可能なインジケータに変換するMetrics Hubだ。

関連論文リスト

CIRCLE: A Framework for Evaluating AI from a Real-World Lens [10.028017198571833]
CIRCLEは、モデル中心のパフォーマンスメトリクスと、デプロイメントにおけるAIの実体化された結果とのギャップを埋めることを目的としている。 CIRCLEは、コンテキストに敏感な質的洞察とスケーラブルな定量的メトリクスをリンクするための構造化された予測プロトコルを提供する。
論文参考訳（メタデータ） (2026-02-27T14:43:23Z)
AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文参考訳（メタデータ） (2026-01-14T11:32:07Z)
Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文参考訳（メタデータ） (2025-12-18T08:38:44Z)
Towards Robust Artificial Intelligence: Self-Supervised Learning Approach for Out-of-Distribution Detection [0.19599274203282294]
本稿では,ラベル付きデータを必要としないOOD検出手法を提案する。提案手法は自己教師付き学習の原理を利用して,ラベルのないデータから有用な表現を学習する。
論文参考訳（メタデータ） (2025-10-14T16:55:25Z)
A Style-Based Profiling Framework for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Datasets [9.788200709163064]
本稿では,合成データセットと実画像データセットの両方に基づくスタイルプロファイルを特徴付けるためのプロファイル抽出と発見フレームワークを提案する。本フレームワークは,グラム行列に基づくスタイル抽出と,クラス内コンパクト性とクラス間分離に最適化されたメトリック学習を組み合わせて,スタイル埋め込みを抽出する。
論文参考訳（メタデータ） (2025-10-11T13:09:41Z)
Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文参考訳（メタデータ） (2025-04-07T03:48:02Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。