Fugu-MT 論文翻訳(概要): Towards an Approach for Evaluating the Impact of AI Standards

論文の概要: Towards an Approach for Evaluating the Impact of AI Standards

arxiv url: http://arxiv.org/abs/2506.13839v1
Date: Mon, 16 Jun 2025 13:58:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.185472
Title: Towards an Approach for Evaluating the Impact of AI Standards
Title（参考訳）: AI標準の影響評価へのアプローチ
Authors: Julia Lane,
Abstract要約: AI標準の目標は、AIを使用するシステムにおけるイノベーションと公的な信頼を促進することである。これらの標準化活動がイノベーションと信頼の目標に与える影響を測定するための形式的あるいは共有的な方法が欠如している。本稿では,AI標準の効果を評価するための分析手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: There have been multiple calls for investments in the development of AI standards that both preserve the transformative potential and minimize the risks of AI. The goals of AI standards, particularly with respect to AI data, performance, and governance, are to promote innovation and public trust in systems that use AI. However, there is a lack of a formal or shared method to measure the impact of these standardization activities on the goals of innovation and trust. This concept paper proposes an analytical approach that could inform the evaluation of the impact of AI standards. The proposed approach could be used to measure, assess, and eventually evaluate the extent to which AI standards achieve their stated goals, since most Standards Development Organizationss do not track the impact of their standards once completed. It is intended to stimulate discussions with a wide variety of stakeholders, including academia and the standards community, about the potential for the approach to evaluate the effectiveness, utility, and relative value of AI standards. The document draws on successful and well-tested evaluation frameworks, tools, and metrics that are used for monitoring and assessing the effect of programmatic interventions in other domains to describe a possible approach. It begins by describing the context within which an evaluation would be designed, and then introduces a standard evaluation framework. These sections are followed by a description of what outputs and outcomes might result from the adoption and implementation of AI standards and the process whereby those AI standards are developed . Subsequent sections provide an overview of how the effectiveness of AI standards might be assessed and a conclusion.
Abstract（参考訳）: 変革の可能性を保ち、AIのリスクを最小限にするAI標準の開発には、複数の投資が求められている。 AI標準の目標は、特にAIデータ、パフォーマンス、ガバナンスに関して、AIを使用するシステムにおけるイノベーションと公的な信頼を促進することである。しかし、これらの標準化活動がイノベーションと信頼の目標に与える影響を測る形式的あるいは共有的な方法が欠如している。本稿では,AI標準の効果を評価するための分析手法を提案する。提案されたアプローチは、ほとんどの標準開発組織が標準が一度完成してもその影響を追跡できないため、AI標準が目標を達成する程度を測定、評価、最終的に評価するために使用することができる。これは、AI標準の有効性、有用性、相対的な価値を評価するアプローチの可能性について、学術や標準コミュニティを含む幅広い利害関係者との議論を刺激することを目的としている。この文書は、他のドメインにおけるプログラム的介入の効果を監視し評価するために使用される、成功し、十分にテストされた評価フレームワーク、ツール、メトリクスに基づいています。まず、評価が設計されるコンテキストを説明し、次に標準評価フレームワークを導入します。これらのセクションは、AI標準の採用と実装から得られるアウトプットと成果についての説明と、それらのAI標準が開発されるプロセスが続く。その後のセクションでは、AI標準の有効性の評価と結論について概説している。

関連論文リスト

Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-04-23T14:52:39Z)
HH4AI: A methodological Framework for AI Human Rights impact assessment under the EUAI ACT [1.7754875105502606]
論文では、自律性、データ、目標指向設計によって駆動される、AIの変革的な性質を強調している。重要な課題は、業界全体での“ハイリスク”なAIシステムの定義と評価である。リスクを分離し、評価するために設計されたゲートベースのフレームワークである、基本的権利影響評価(FRIA)手法を提案する。
論文参考訳（メタデータ） (2025-03-23T19:10:14Z)
Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文参考訳（メタデータ） (2025-03-10T16:13:45Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Where Assessment Validation and Responsible AI Meet [0.0876953078294908]
本稿では,古典的テスト検証理論と評価固有のドメインに依存しないRAIの原則と実践を考察する統合評価フレームワークを提案する。このフレームワークは、妥当性議論をサポートする評価のための責任あるAI使用、人間の価値と監視を維持するためのAI倫理との整合性、そしてAI使用に関連するより広範な社会的責任に対処する。
論文参考訳（メタデータ） (2024-11-04T20:20:29Z)
Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文参考訳（メタデータ） (2023-12-23T12:30:06Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
A Framework for Ethical AI at the United Nations [0.0]
本稿では、人工知能(AI)における倫理的懸念と、それらのリスクを軽減するために必要な枠組みの概要を提供する。これは、国連(UN)におけるAIの開発と利用が当社の倫理的価値観に合致するようにするための実用的な道筋を提案します。
論文参考訳（メタデータ） (2021-04-09T23:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。