Fugu-MT 論文翻訳(概要): COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

論文の概要: COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

arxiv url: http://arxiv.org/abs/2410.07959v1
Date: Thu, 10 Oct 2024 14:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 13:53:52.202483
Title: COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act
Title（参考訳）: CompL-AI Framework:EU人工知能法のための技術的解釈とLLMベンチマークスイート
Authors: Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanović, Mark Vero, Velko Vechev, Anna Gueorguieva, Mislav Balunović, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev,
Abstract要約: EUの人工知能法(AI Act)は、AI開発の責任を負うための重要なステップである。明確な技術的解釈がなく、モデルのコンプライアンスを評価するのが難しい。この研究は、この法律の最初の技術的解釈からなる包括的枠組みであるComple-AIを提示する。
参考スコア（独自算出の注目度）: 40.233017376716305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The EU's Artificial Intelligence Act (AI Act) is a significant step towards responsible AI development, but lacks clear technical interpretation, making it difficult to assess models' compliance. This work presents COMPL-AI, a comprehensive framework consisting of (i) the first technical interpretation of the EU AI Act, translating its broad regulatory requirements into measurable technical requirements, with the focus on large language models (LLMs), and (ii) an open-source Act-centered benchmarking suite, based on thorough surveying and implementation of state-of-the-art LLM benchmarks. By evaluating 12 prominent LLMs in the context of COMPL-AI, we reveal shortcomings in existing models and benchmarks, particularly in areas like robustness, safety, diversity, and fairness. This work highlights the need for a shift in focus towards these aspects, encouraging balanced development of LLMs and more comprehensive regulation-aligned benchmarks. Simultaneously, COMPL-AI for the first time demonstrates the possibilities and difficulties of bringing the Act's obligations to a more concrete, technical level. As such, our work can serve as a useful first step towards having actionable recommendations for model providers, and contributes to ongoing efforts of the EU to enable application of the Act, such as the drafting of the GPAI Code of Practice.
Abstract（参考訳）: EUの人工知能法(AI Act)は、責任あるAI開発に向けた重要なステップであるが、明確な技術的解釈が欠如しており、モデルのコンプライアンスを評価するのが困難である。本研究は,包括的フレームワークであるComple-AIを提示する。 i)EU AI法の最初の技術的解釈で、その広範な規制要件を、大規模言語モデル(LLM)に焦点をあてて、測定可能な技術的要件に翻訳する。 (ii) オープンソースのAct中心ベンチマークスイートで、徹底的なサーベイと最先端のLCMベンチマークの実装に基づいている。既存のモデルやベンチマーク,特に堅牢性,安全性,多様性,公正性といった分野における欠点を明らかにする。この作業は、これらの側面に焦点を移すことの必要性を強調し、LLMとより包括的な規制に準拠したベンチマークのバランスの取れた開発を促進する。同時に、Comple-AIは、法の義務をより具体的で技術的なレベルにすることの可能性と難しさを初めて示した。このように、当社の作業は、モデル提供者に対して実行可能なレコメンデーションを行うための有用な第一歩として機能し、GPAIの慣行の起草など、この法律の適用に向けたEUの継続的な取り組みに貢献することができる。

関連論文リスト

How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文参考訳（メタデータ） (2025-09-18T17:56:30Z)
Engineering the Law-Machine Learning Translation Problem: Developing Legally Aligned Models [0.0]
本稿では,機械学習モデル開発において,法的および機械学習技術分析を統合した5段階の学際フレームワークを提案する。このフレームワークは、法的に整合した方法でMLモデルを設計し、法的に妥当なハイパフォーマンスモデルを特定することを容易にする。
論文参考訳（メタデータ） (2025-04-23T13:41:17Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Robustness and Cybersecurity in the EU Artificial Intelligence Act [1.433758865948252]
EU人工知能法(英語: EU Artificial Intelligence Act、AIA)は、異なるタイプのAIシステムに対して異なる法的原則を定めている。以前の研究はこれらの原則のいくつかを明確にしようとしたが、ロバストネスとサイバーセキュリティにはほとんど注意が払われていない。リスクの高いAIシステムに対するロバストネスとサイバーセキュリティに関連する条項における法的課題と欠点を特定します。
論文参考訳（メタデータ） (2025-02-22T11:12:20Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
The Fundamental Rights Impact Assessment (FRIA) in the AI Act: Roots, legal obligations and key elements for a model template [55.2480439325792]
基本権利影響評価(FRIA)の理論的・方法論的検討における既存のギャップを埋めることを目的とする。この記事では、FRIAのモデルテンプレートの主要なビルディングブロックについて概説する。これは、AIが人権と完全に整合していることを保証するために、他の国家および国際規制イニシアチブの青写真として機能する。
論文参考訳（メタデータ） (2024-11-07T11:55:55Z)
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-29T19:32:43Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Knowledge-Augmented Reasoning for EUAIA Compliance and Adversarial Robustness of LLMs [1.368472250332885]
EUAIA(EU AI Act)は、敵の堅牢性を確立するために必要なプロセスと交差するAIシステムの要件を導入している。本稿では,2つの特性をブリッジする機能アーキテクチャを提案する。我々は,知識強化に基づく推論レイヤで開発者と監査者を支援することを目的としている。
論文参考訳（メタデータ） (2024-10-04T18:23:14Z)
The Impossibility of Fair LLMs [59.424918263776284]
大規模言語モデル(LLM)の時代において、公正なAIの必要性はますます明確になっている。我々は、機械学習研究者が公正性を評価するために使った技術フレームワークについてレビューする。我々は、特定のユースケースにおける公平性を達成するためのより現実的な目標のためのガイドラインを策定する。
論文参考訳（メタデータ） (2024-05-28T04:36:15Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
Navigating the EU AI Act: A Methodological Approach to Compliance for Safety-critical Products [0.0]
本稿では,リスクの高いAIシステムに対するEU AI Act要件を解釈するための方法論を提案する。まず,AIシステムに対する製品品質モデルの拡張を提案し,現行の品質モデルではカバーされない法に関する属性を取り入れた。次に、ステークホルダーレベルで技術的要件を導出するための契約ベースのアプローチを提案します。
論文参考訳（メタデータ） (2024-03-25T14:32:18Z)
Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文参考訳（メタデータ） (2024-02-15T11:08:10Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Auditing large language models: a three-layered approach [0.0]
大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。 LLMはまた、重大な倫理的・社会的課題と結びついている。これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
論文参考訳（メタデータ） (2023-02-16T18:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。