論文の概要: COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act
- arxiv url: http://arxiv.org/abs/2410.07959v1
- Date: Thu, 10 Oct 2024 14:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 13:53:52.202483
- Title: COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act
- Title(参考訳): CompL-AI Framework:EU人工知能法のための技術的解釈とLLMベンチマークスイート
- Authors: Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanović, Mark Vero, Velko Vechev, Anna Gueorguieva, Mislav Balunović, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev,
- Abstract要約: EUの人工知能法(AI Act)は、AI開発の責任を負うための重要なステップである。
明確な技術的解釈がなく、モデルのコンプライアンスを評価するのが難しい。
この研究は、この法律の最初の技術的解釈からなる包括的枠組みであるComple-AIを提示する。
- 参考スコア(独自算出の注目度): 40.233017376716305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The EU's Artificial Intelligence Act (AI Act) is a significant step towards responsible AI development, but lacks clear technical interpretation, making it difficult to assess models' compliance. This work presents COMPL-AI, a comprehensive framework consisting of (i) the first technical interpretation of the EU AI Act, translating its broad regulatory requirements into measurable technical requirements, with the focus on large language models (LLMs), and (ii) an open-source Act-centered benchmarking suite, based on thorough surveying and implementation of state-of-the-art LLM benchmarks. By evaluating 12 prominent LLMs in the context of COMPL-AI, we reveal shortcomings in existing models and benchmarks, particularly in areas like robustness, safety, diversity, and fairness. This work highlights the need for a shift in focus towards these aspects, encouraging balanced development of LLMs and more comprehensive regulation-aligned benchmarks. Simultaneously, COMPL-AI for the first time demonstrates the possibilities and difficulties of bringing the Act's obligations to a more concrete, technical level. As such, our work can serve as a useful first step towards having actionable recommendations for model providers, and contributes to ongoing efforts of the EU to enable application of the Act, such as the drafting of the GPAI Code of Practice.
- Abstract(参考訳): EUの人工知能法(AI Act)は、責任あるAI開発に向けた重要なステップであるが、明確な技術的解釈が欠如しており、モデルのコンプライアンスを評価するのが困難である。
本研究は,包括的フレームワークであるComple-AIを提示する。
i)EU AI法の最初の技術的解釈で、その広範な規制要件を、大規模言語モデル(LLM)に焦点をあてて、測定可能な技術的要件に翻訳する。
(ii) オープンソースのAct中心ベンチマークスイートで、徹底的なサーベイと最先端のLCMベンチマークの実装に基づいている。
既存のモデルやベンチマーク,特に堅牢性,安全性,多様性,公正性といった分野における欠点を明らかにする。
この作業は、これらの側面に焦点を移すことの必要性を強調し、LLMとより包括的な規制に準拠したベンチマークのバランスの取れた開発を促進する。
同時に、Comple-AIは、法の義務をより具体的で技術的なレベルにすることの可能性と難しさを初めて示した。
このように、当社の作業は、モデル提供者に対して実行可能なレコメンデーションを行うための有用な第一歩として機能し、GPAIの慣行の起草など、この法律の適用に向けたEUの継続的な取り組みに貢献することができる。
関連論文リスト
- A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Knowledge-Augmented Reasoning for EUAIA Compliance and Adversarial Robustness of LLMs [1.368472250332885]
EUAIA(EU AI Act)は、敵の堅牢性を確立するために必要なプロセスと交差するAIシステムの要件を導入している。
本稿では,2つの特性をブリッジする機能アーキテクチャを提案する。
我々は,知識強化に基づく推論レイヤで開発者と監査者を支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-04T18:23:14Z) - The Impossibility of Fair LLMs [59.424918263776284]
大規模言語モデル(LLM)の時代において、公正なAIの必要性はますます明確になっている。
我々は、機械学習研究者が公正性を評価するために使った技術フレームワークについてレビューする。
我々は、特定のユースケースにおける公平性を達成するためのより現実的な目標のためのガイドラインを策定する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Navigating the EU AI Act: A Methodological Approach to Compliance for Safety-critical Products [0.0]
本稿では,リスクの高いAIシステムに対するEU AI Act要件を解釈するための方法論を提案する。
まず,AIシステムに対する製品品質モデルの拡張を提案し,現行の品質モデルではカバーされない法に関する属性を取り入れた。
次に、ステークホルダーレベルで技術的要件を導出するための契約ベースのアプローチを提案します。
論文 参考訳(メタデータ) (2024-03-25T14:32:18Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Auditing large language models: a three-layered approach [0.0]
大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。
LLMはまた、重大な倫理的・社会的課題と結びついている。
これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
論文 参考訳(メタデータ) (2023-02-16T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。