論文の概要: Audit Cards: Contextualizing AI Evaluations
- arxiv url: http://arxiv.org/abs/2504.13839v1
- Date: Fri, 18 Apr 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 14:30:13.68725
- Title: Audit Cards: Contextualizing AI Evaluations
- Title(参考訳): 監査カード:AI評価のコンテキスト化
- Authors: Leon Staufer, Mick Yang, Anka Reuel, Stephen Casper,
- Abstract要約: 我々は「監査用カード」が、その正当性とともにキークレームを報告するための構造化されたフォーマットを提供することができると論じる。
我々は、監査カードで報告し正当化する6つの重要なコンテキスト特徴を識別する。
- 参考スコア(独自算出の注目度): 2.810305336955124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI governance frameworks increasingly rely on audits, yet the results of their underlying evaluations require interpretation and context to be meaningfully informative. Even technically rigorous evaluations can offer little useful insight if reported selectively or obscurely. Current literature focuses primarily on technical best practices, but evaluations are an inherently sociotechnical process, and there is little guidance on reporting procedures and context. Through literature review, stakeholder interviews, and analysis of governance frameworks, we propose "audit cards" to make this context explicit. We identify six key types of contextual features to report and justify in audit cards: auditor identity, evaluation scope, methodology, resource access, process integrity, and review mechanisms. Through analysis of existing evaluation reports, we find significant variation in reporting practices, with most reports omitting crucial contextual information such as auditors' backgrounds, conflicts of interest, and the level and type of access to models. We also find that most existing regulations and frameworks lack guidance on rigorous reporting. In response to these shortcomings, we argue that audit cards can provide a structured format for reporting key claims alongside their justifications, enhancing transparency, facilitating proper interpretation, and establishing trust in reporting.
- Abstract(参考訳): AIガバナンスフレームワークは監査にますます依存しているが、その基盤となる評価の結果は、意味のある情報を必要とする解釈とコンテキストである。
技術的に厳密な評価でさえ、選択的または不明瞭に報告された場合、有用な洞察はほとんど得られない。
現在の文献は、主に技術的ベストプラクティスに焦点を当てているが、評価は本質的に社会技術的プロセスであり、報告手順や文脈に関するガイダンスはほとんどない。
文献レビュー、ステークホルダーインタビュー、ガバナンスフレームワークの分析を通じて、我々はこの文脈を明確にするために「監査カード」を提案します。
オーディションカードでは,監査者識別,評価範囲,方法論,リソースアクセス,プロセスの整合性,レビュー機構の6つの重要な特徴を報告し,正当化する。
既存の評価報告を分析した結果,ほとんどの報告では,監査人の背景や関心の対立,モデルへのアクセスレベルやタイプといった重要な文脈情報を省略している。
また、既存の規制やフレームワークには厳格なレポートのガイダンスがないこともわかりました。
これらの欠点に対応するために、監査カードは、その正当化、透明性の強化、適切な解釈の促進、報告に対する信頼の確立とともに、重要な主張を報告するための構造化されたフォーマットを提供することができると論じる。
関連論文リスト
- Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - From Transparency to Accountability and Back: A Discussion of Access and Evidence in AI Auditing [1.196505602609637]
監査は、デプロイ前のリスクアセスメント、進行中の監視、コンプライアンステストなど、さまざまな形式で実施することができる。
AI監査には、その実装を複雑にする多くの運用上の課題がある。
我々は、監査は自然な仮説テストとして、並列仮説テストと法的手続きを引き出すことができると論じ、このフレーミングは、監査実施に関する明確かつ解釈可能なガイダンスを提供すると論じる。
論文 参考訳(メタデータ) (2024-10-07T06:15:46Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators [38.523194864405326]
AFaCTAは、事実主張のアノテーションを支援する新しいフレームワークである。
AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。
PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。
論文 参考訳(メタデータ) (2024-02-16T20:59:57Z) - ValiText -- a unified validation framework for computational text-based measures of social constructs [0.8930269507906258]
本稿では,テキストデータ中の社会的構造を有効に測定する上で,研究者を支援するための新たな検証フレームワークであるValiTextを紹介する。
この枠組みは、社会科学における妥当性の概念的基礎の上に構築され、社会科学における検証実践の実証的なレビューによって強化されている。
最終的にValiTextは、研究者に3種類の検証証拠を処方する。
論文 参考訳(メタデータ) (2023-07-06T09:03:10Z) - To Revise or Not to Revise: Learning to Detect Improvable Claims for
Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。
本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。
文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2023-05-26T10:19:54Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。