論文の概要: CIRCLE: A Framework for Evaluating AI from a Real-World Lens
- arxiv url: http://arxiv.org/abs/2602.24055v2
- Date: Tue, 03 Mar 2026 18:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.434339
- Title: CIRCLE: A Framework for Evaluating AI from a Real-World Lens
- Title(参考訳): CIRCLE: 現実世界のレンズからAIを評価するフレームワーク
- Authors: Reva Schwartz, Carina Westling, Morgan Briggs, Marzieh Fadaee, Isar Nejadgholi, Matthew Holmes, Fariza Rashid, Maya Carlyle, Afaf Taïk, Kyra Wilson, Peter Douglas, Theodora Skeadas, Gabriella Waters, Rumman Chowdhury, Thiago Lacerda,
- Abstract要約: CIRCLEは、モデル中心のパフォーマンスメトリクスと、デプロイメントにおけるAIの実体化された結果とのギャップを埋めることを目的としている。
CIRCLEは、コンテキストに敏感な質的洞察とスケーラブルな定量的メトリクスをリンクするための構造化された予測プロトコルを提供する。
- 参考スコア(独自算出の注目度): 10.028017198571833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes CIRCLE, a six-stage, lifecycle-based framework to bridge the reality gap between model-centric performance metrics and AI's materialized outcomes in deployment. While existing frameworks like MLOps focus on system stability and benchmarks measure abstract capabilities, decision-makers outside the AI stack lack systematic evidence about the behavior of AI technologies under real-world user variability and constraints. CIRCLE operationalizes the Validation phase of TEVV (Test, Evaluation, Verification, and Validation) by formalizing the translation of stakeholder concerns outside the stack into measurable signals. Unlike participatory design, which often remains localized, or algorithmic audits, which are often retrospective, CIRCLE provides a structured, prospective protocol for linking context-sensitive qualitative insights to scalable quantitative metrics. By integrating methods such as field testing, red teaming, and longitudinal studies into a coordinated pipeline, CIRCLE produces systematic knowledge: evidence that is comparable across sites yet sensitive to local context. This can enable governance based on materialized downstream effects rather than theoretical capabilities.
- Abstract(参考訳): 本稿では、モデル中心のパフォーマンス指標とAIの実際のデプロイメント結果との現実的なギャップを埋める6段階のライフサイクルベースのフレームワークであるCIRCLEを提案する。
MLOpsのような既存のフレームワークはシステムの安定性に重点を置いており、ベンチマークは抽象的な能力を測定する。
CIRCLEは、スタック外のステークホルダー関心事を測定可能な信号に変換することで、TEVV(テスト、評価、検証、検証)の検証フェーズを運用する。
しばしばローカライズされたままの参加型設計やアルゴリズムによる監査とは違い、CIRCLEはコンテキストに敏感な質的洞察をスケーラブルな定量的メトリクスにリンクするための構造化された予測プロトコルを提供する。
フィールドテスト、レッドチーム、縦断的な研究などの手法を協調パイプラインに統合することにより、CIRCLEは体系的な知識を生成する。
これにより、理論的能力よりもむしろ、実体化された下流効果に基づくガバナンスが可能になる。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Towards Worst-Case Guarantees with Scale-Aware Interpretability [58.519943565092724]
ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
我々は,形式機械と解釈可能性ツールを開発するための統一的な研究課題,即時対応型解釈可能性(enmphscale-aware interpretability)を提案する。
論文 参考訳(メタデータ) (2026-02-05T01:22:31Z) - Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models [122.58252919699122]
機械的解釈可能性 (MI) は、大規模言語モデル (LLM) の意思決定を決定づける重要なアプローチとして登場した。
Awesomeinterventionable-MI-Survey" というパイプラインを中心に構築された実践的調査を提案する。
論文 参考訳(メタデータ) (2026-01-20T14:23:23Z) - Explainable Neural Inverse Kinematics for Obstacle-Aware Robotic Manipulation: A Comparative Analysis of IKNet Variants [0.28544513613730205]
ディープニューラルネットワークは、低コストのマニピュレータが複雑な軌道をリアルタイムで実行できる地点まで、逆運動学(IK)推論を加速させた。
本研究では,Shapley値属性と物理に基づく障害物回避評価を統合した説明可能性中心ワークフローを提案する。
論文 参考訳(メタデータ) (2025-12-29T09:02:02Z) - Variance-Bounded Evaluation of Entity-Centric AI Systems Without Ground Truth: Theory and Measurement [0.0]
本稿では,エンティティ中心型AIシステムのための分散境界評価フレームワークであるVB-Scoreを紹介する。
VB-Scoreは制約緩和とモンテカルロサンプリングを通じて可算解釈を列挙する。
そして、システムの堅牢性を評価するために、システムアウトプットを解釈を越えて予測される成功によって評価し、分散によって罰する。
論文 参考訳(メタデータ) (2025-09-26T07:54:38Z) - Technical Report: Facilitating the Adoption of Causal Inference Methods Through LLM-Empowered Co-Pilot [44.336297829718795]
CATE-Bは,大規模言語モデル(LLM)をエージェントフレームワーク内で使用して,治療効果推定を通じてユーザを誘導する,オープンソースのコパイロットシステムである。
CATE-B は (i) 因果発見と LLM に基づくエッジオリエンテーションによる構造因果モデルの構築、 (ii) 因果構造とデータセット特性に適合した適切な回帰方法を選択することによるロバストな調整セットの同定を支援する。
論文 参考訳(メタデータ) (2025-08-14T12:20:51Z) - SOI is the Root of All Evil: Quantifying and Breaking Similar Object Interference in Single Object Tracking [25.076012214989433]
類似オブジェクト干渉(SOI)の最初の体系的研究と定量化について述べる。
干渉源の除去は、全てのSOTAトラッカーで大幅な性能改善(AUCは4.35まで向上)をもたらす。
SOIBenchは,SOI課題を対象とする最初の意味認知指導ベンチマークである。
論文 参考訳(メタデータ) (2025-08-13T06:12:43Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。