Fugu-MT 論文翻訳(概要): On the relationship between Benchmarking, Standards and Certification in Robotics and AI

論文の概要: On the relationship between Benchmarking, Standards and Certification in Robotics and AI

arxiv url: http://arxiv.org/abs/2309.12139v1
Date: Thu, 21 Sep 2023 14:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 14:49:39.054903
Title: On the relationship between Benchmarking, Standards and Certification in Robotics and AI
Title（参考訳）: ロボットとAIにおけるベンチマーク, 基準, 認定の関係について
Authors: Alan F.T. Winfield and Matthew Studley
Abstract要約: ベンチマーク、標準、認定は密接に関連するプロセスである。ベンチマーク、標準、認定は有用であるだけでなく、責任あるイノベーションのより広範な実践にも不可欠である。
参考スコア（独自算出の注目度）: 1.1421942894219899
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benchmarking, standards and certification are closely related processes. Standards can provide normative requirements that robotics and AI systems may or may not conform to. Certification generally relies upon conformance with one or more standards as the key determinant of granting a certificate to operate. And benchmarks are sets of standardised tests against which robots and AI systems can be measured. Benchmarks therefore can be thought of as informal standards. In this paper we will develop these themes with examples from benchmarking, standards and certification, and argue that these three linked processes are not only useful but vital to the broader practice of Responsible Innovation.
Abstract（参考訳）: ベンチマーク、標準、認定は密接に関連するプロセスである。標準はロボット工学やAIシステムが適合するかもしれないし従わないかもしれないという規範的な要件を提供することができる。認証は一般的に、運用する証明書を付与する鍵となる決定要因として、1つ以上の基準に準拠している。そしてベンチマークは、ロボットとAIシステムが測定可能な標準テストのセットだ。したがってベンチマークは非公式標準と考えることができる。本稿では、これらのテーマを、ベンチマーク、標準、認定の例から開発し、これら3つの関連プロセスは有用であるだけでなく、より広範な責任あるイノベーションの実践にとって不可欠であると主張する。

関連論文リスト

Standards for trustworthy AI in the European Union: technical rationale, structural challenges, and an implementation path [0.0]
この白書は、AI法に基づく欧州のAI標準化の技術的基盤について考察する。 CEN/CENELECの標準化プロセスを説明するとともに、AIがユニークな課題を提起する理由を分析する。
論文参考訳（メタデータ） (2026-01-21T11:58:47Z)
Lost in Vagueness: Towards Context-Sensitive Standards for Robustness Assessment under the EU AI Act [2.740981829798319]
ロバストネスは、EU人工知能法(AI法)に基づくリスクの高いAIシステムにとって重要な要件である本稿では,AIシステムが堅牢であることの意味を考察し,文脈に敏感な標準化の必要性を示す。
論文参考訳（メタデータ） (2025-11-19T17:06:36Z)
Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文参考訳（メタデータ） (2025-09-08T17:52:08Z)
Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文参考訳（メタデータ） (2025-07-08T22:29:06Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
Standardizing Intelligence: Aligning Generative AI for Regulatory and Operational Compliance [3.666326242924816]
我々は、ドメインやセクター間で異なる標準の臨界レベルを評価し、最先端のGenAIモデルの現在のコンプライアンス能力を評価することでそれらを補完する。全体として、GenAIと標準を計算手法で整合させることは、規制と運用のコンプライアンスを強化するのに役立つと論じる。
論文参考訳（メタデータ） (2025-02-03T16:55:01Z)
SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Ethical and Scalable Automation: A Governance and Compliance Framework for Business Applications [0.0]
本稿では、AIが倫理的で、制御可能で、実行可能で、望ましいものであることを保証するフレームワークを紹介する。異なるケーススタディは、学術と実践の両方の環境でAIを統合することで、このフレームワークを検証する。
論文参考訳（メタデータ） (2024-09-25T12:39:28Z)
An Open Knowledge Graph-Based Approach for Mapping Concepts and Requirements between the EU AI Act and International Standards [1.9142148274342772]
EUのAI法は、規制の遵守に関する技術的要件に従って、そのような組織の焦点をシフトする。本稿では、規則や標準における規範文に関連する用語と要件をマッピングするための、シンプルで繰り返し可能なメカニズムを提供する。
論文参考訳（メタデータ） (2024-08-21T18:21:09Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳（メタデータ） (2024-06-13T00:59:55Z)
Towards Standards-Compliant Assistive Technology Product Specifications via LLMs [7.30389619012625]
我々は、AT製品仕様のコンプライアンスプロセスを合理化するための先駆的なフレームワークであるCompliATを紹介します。 CompliATは3つの重要なタスクに対処する。一貫性の用語をチェックし、標準に従って製品を分類し、主要な製品仕様を標準要件にトレースする。本稿では,国際標準に適合するAT製品を正確に分類するために,検索拡張生成モデルを活用する新しい製品分類手法を提案する。
論文参考訳（メタデータ） (2024-04-04T00:10:39Z)
No Trust without regulation! [0.0]
機械学習(ML)の性能の爆発と、その応用の可能性は、産業システムにおけるその利用を考慮し続けています。安全と、その基準、規制、標準の問題については、いまだに片側に過度に残っています。欧州委員会は、安全で信頼性があり、ヨーロッパの倫理的価値を尊重するAIベースのアプリケーションを統合するための、前進と強固なアプローチを構築するための基盤を築き上げた。
論文参考訳（メタデータ） (2023-09-27T09:08:41Z)
A General Framework for Verification and Control of Dynamical Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。コントローラと証明書を形式的に合成する自動化手法を提案する。我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文参考訳（メタデータ） (2023-09-12T09:37:26Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
A Norm Emergence Framework for Normative MAS -- Position Paper [0.90238471756546]
本稿では,規範的マルチエージェントシステムにおける規範の出現のための枠組みを提案する。同様に、エージェントのパーセンテージがノルムを採用すると、ノルムがノルムMASに出現する。我々は、規範的MAS内での規範の出現のための枠組みを提唱し、特殊目的シンセサイザーエージェントは、これらの要求に応じて新しい規範や修正を定式化する。
論文参考訳（メタデータ） (2020-04-06T11:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。