論文の概要: Aggregated Individual Reporting for Post-Deployment Evaluation
- arxiv url: http://arxiv.org/abs/2506.18133v1
- Date: Sun, 22 Jun 2025 18:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.767013
- Title: Aggregated Individual Reporting for Post-Deployment Evaluation
- Title(参考訳): 集合的個別報告によるデプロイ後の評価
- Authors: Jessica Dai, Inioluwa Deborah Raji, Benjamin Recht, Irene Y. Chen,
- Abstract要約: 集約個別報告(AIR)のメカニズムを提案する。
AIRのメカニズムによって、特定のデプロイされた(AI)システムと対話する人々は、問題が発生したと感じた時に報告することができます。
我々は、さらなる研究と方法論開発を必要とする分野への具体的な設計決定と指針のワークフローを提供する。
- 参考スコア(独自算出の注目度): 13.076658604726399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need for developing model evaluations beyond static benchmarking, especially in the post-deployment phase, is now well-understood. At the same time, concerns about the concentration of power in deployed AI systems have sparked a keen interest in 'democratic' or 'public' AI. In this work, we bring these two ideas together by proposing mechanisms for aggregated individual reporting (AIR), a framework for post-deployment evaluation that relies on individual reports from the public. An AIR mechanism allows those who interact with a specific, deployed (AI) system to report when they feel that they may have experienced something problematic; these reports are then aggregated over time, with the goal of evaluating the relevant system in a fine-grained manner. This position paper argues that individual experiences should be understood as an integral part of post-deployment evaluation, and that the scope of our proposed aggregated individual reporting mechanism is a practical path to that end. On the one hand, individual reporting can identify substantively novel insights about safety and performance; on the other, aggregation can be uniquely useful for informing action. From a normative perspective, the post-deployment phase completes a missing piece in the conversation about 'democratic' AI. As a pathway to implementation, we provide a workflow of concrete design decisions and pointers to areas requiring further research and methodological development.
- Abstract(参考訳): 静的ベンチマークを超えてモデル評価を開発する必要性、特にデプロイ後の段階では、よく理解されている。
同時に、デプロイされたAIシステムにおけるパワーの集中に関する懸念が「民主的」あるいは「公的な」AIに強い関心を喚起した。
本研究では,これら2つのアイデアを,一般からの個別報告に依存したデプロイ後評価の枠組みである集約個別報告(AIR)のメカニズムによってまとめる。
AIRのメカニズムによって、特定のデプロイされた(AI)システムと対話するユーザは、問題が発生したと感じた時に報告することができる。
本論文は, 個別の体験を, デプロイ後評価の不可欠な部分として理解すべきであり, 提案する集計個別報告機構の範囲は, その目的への実践的経路である,と論じる。
一方、個々の報告は、安全性とパフォーマンスに関する実質的な新しい洞察を識別することができる。
規範的な観点では、デプロイ後のフェーズは‘民主的’AIに関する会話で欠けている部分を完成させる。
実装の道筋として、さらなる研究と方法論開発を必要とする分野への具体的な設計決定とポインタのワークフローを提供する。
関連論文リスト
- Towards Automated Situation Awareness: A RAG-Based Framework for Peacebuilding Reports [2.230742111425553]
本稿では,状況認識レポートを自律的に生成する動的検索・拡張生成システムを提案する。
本システムでは,要求に基づく問合せ固有の知識ベースを構築し,時間的,関連性,正確な洞察を確保する。
このシステムは、複数の実世界のシナリオでテストされ、一貫性があり、洞察力があり、実行可能なレポートを生成する効果を実証している。
論文 参考訳(メタデータ) (2025-05-14T16:36:30Z) - Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからアスペクトを抽出するデータ駆動スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - Example-Based Concept Analysis Framework for Deep Weather Forecast Models [25.56878415414591]
本研究では,類似の推論プロセスに従う事例を対象モデルにおける対象インスタンスとして識別する,実例に基づく概念分析フレームワークを開発する。
本フレームワークは,気象メカニズムの曖昧さを解消するための概念割り当ての確率を含む,視覚的および概念的に類似した例をユーザに提供する。
論文 参考訳(メタデータ) (2025-04-01T14:22:41Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection [0.0]
本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-01-27T12:14:49Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - Attributing Fair Decisions with Attention Interventions [28.968122909973975]
我々は、属性フレームワークとして活用できる注意ベースのモデルを設計する。
注意介入と注意重み操作によって、モデルの性能と公平性の両方に責任を負う特徴を特定することができる。
次に、後処理のバイアス軽減戦略を設計し、ベースラインのスイートと比較します。
論文 参考訳(メタデータ) (2021-09-08T22:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。