論文の概要: Who Evaluates AI's Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations
- arxiv url: http://arxiv.org/abs/2511.05613v1
- Date: Thu, 06 Nov 2025 14:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.496158
- Title: Who Evaluates AI's Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations
- Title(参考訳): AIの社会的影響を誰が評価するか : 第一・第三の評価におけるカバーとギャップのマッピング
- Authors: Anka Reuel, Avijit Ghosh, Jenny Chim, Andrew Tran, Yanan Long, Jennifer Mickel, Usman Gohar, Srishti Yadav, Pawan Sasanka Ammanamanchi, Mowafak Allaham, Hossein A. Rahmani, Mubashara Akhtar, Felix Friedrich, Robert Scholz, Michael Alexander Riegler, Jan Batzner, Eliya Habba, Arushi Saxena, Anastassia Kornilova, Kevin Wei, Prajna Soni, Yohan Mathew, Kevin Klyman, Jeba Sania, Subramanyam Sahoo, Olivia Beyer Bruvik, Pouya Sadeghi, Sujata Goswami, Angelina Wang, Yacine Jernite, Zeerak Talat, Stella Biderman, Mykel Kochenderfer, Sanmi Koyejo, Irene Solaiman,
- Abstract要約: 最初の包括的な分析は、広範囲のモデル開発者を対象にした、サードパーティとサードパーティのソーシャルインパクト評価レポートである。
ファーストパーティの報告は希少で、しばしば表面的で、環境への影響や偏見といった重要な分野では時間が経つにつれて減少している。
第三者評価者は、偏見、有害なコンテンツ、パフォーマンスの格差を広くより厳格にカバーしている。
- 参考スコア(独自算出の注目度): 37.727313946463276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are increasingly central to high-stakes AI systems, and governance frameworks now depend on evaluations to assess their risks and capabilities. Although general capability evaluations are widespread, social impact assessments covering bias, fairness, privacy, environmental costs, and labor practices remain uneven across the AI ecosystem. To characterize this landscape, we conduct the first comprehensive analysis of both first-party and third-party social impact evaluation reporting across a wide range of model developers. Our study examines 186 first-party release reports and 183 post-release evaluation sources, and complements this quantitative analysis with interviews of model developers. We find a clear division of evaluation labor: first-party reporting is sparse, often superficial, and has declined over time in key areas such as environmental impact and bias, while third-party evaluators including academic researchers, nonprofits, and independent organizations provide broader and more rigorous coverage of bias, harmful content, and performance disparities. However, this complementarity has limits. Only model developers can authoritatively report on data provenance, content moderation labor, financial costs, and training infrastructure, yet interviews reveal that these disclosures are often deprioritized unless tied to product adoption or regulatory compliance. Our findings indicate that current evaluation practices leave major gaps in assessing AI's societal impacts, highlighting the urgent need for policies that promote developer transparency, strengthen independent evaluation ecosystems, and create shared infrastructure to aggregate and compare third-party evaluations in a consistent and accessible way.
- Abstract(参考訳): ファウンデーションモデルは、ハイステークなAIシステムにおいてますます中心的になってきており、ガバナンスフレームワークは、リスクと能力を評価するために評価に依存している。
一般的な能力評価は広く行われているが、バイアス、公正性、プライバシ、環境コスト、労働慣行をカバーする社会的影響評価は、AIエコシステム全体で不均一である。
この状況を特徴付けるため、我々は、広範囲のモデル開発者を対象に、第1者および第3者の両方の社会影響評価報告を包括的に分析する。
本研究は,第1部リリース報告186件とリリース後評価資料183件について検討し,モデル開発者のインタビューによる定量的分析を補完するものである。
評価作業の明確な区分を見いだす: 第一の報告は疎外的で、しばしば表面的で、環境への影響や偏見といった重要な分野において時間の経過とともに減少しており、一方、学術研究者、非営利団体、独立組織を含む第三者評価者は、偏見、有害なコンテンツ、パフォーマンス格差をより広く厳密にカバーしている。
しかし、この相補性には限界がある。
データプロファイナンス、コンテンツモデレーションの労力、財務コスト、トレーニングインフラストラクチャについて、モデル開発者が権威的に報告できるのは、しかしながら、インタビューによると、これらの開示は、製品の採用や規制の遵守に縛られない限り、しばしば優先順位を下げられる。
私たちの調査結果は、現在の評価プラクティスが、AIの社会的影響を評価する上で大きなギャップを残していることを示し、開発者の透明性を促進し、独立した評価エコシステムを強化し、一貫性とアクセス性のある方法でサードパーティの評価を集約し比較するための共有インフラストラクチャを構築するための、緊急のポリシーの必要性を強調しています。
関連論文リスト
- OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - Towards Automated Situation Awareness: A RAG-Based Framework for Peacebuilding Reports [2.230742111425553]
本稿では,状況認識レポートを自律的に生成する動的検索・拡張生成システムを提案する。
本システムでは,要求に基づく問合せ固有の知識ベースを構築し,時間的,関連性,正確な洞察を確保する。
このシステムは、複数の実世界のシナリオでテストされ、一貫性があり、洞察力があり、実行可能なレポートを生成する効果を実証している。
論文 参考訳(メタデータ) (2025-05-14T16:36:30Z) - Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research [75.84463664853125]
我々は,3つのトピック,すなわち環境影響,株式,およびピアレビューへの影響に関する懸念を定量化するための最初の試みを提供する。
我々は、高齢者、アカデミック、産業に関して、異なるグループと異なるグループ内の既存の(異なる)格差を捉えます。
私たちは、発見された格差を軽減するためのレコメンデーションを考案しました。
論文 参考訳(メタデータ) (2023-06-29T12:44:53Z) - Evaluating the Social Impact of Generative AI Systems in Systems and Society [43.32010533676472]
テキスト(コードを含む)、画像、オーディオ、ビデオなどを含むモダリティにまたがる生成AIシステムは、幅広い社会的影響を持つ。
これらの影響を評価するための公式な基準や、どの影響を評価するべきかの基準はありません。
本稿では,任意のモダリティに対して基本生成型AIシステムを評価するための,標準的なアプローチに向けたガイドを提案する。
論文 参考訳(メタデータ) (2023-06-09T15:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。