論文の概要: AI Benchmarks and Datasets for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2412.01020v1
- Date: Mon, 02 Dec 2024 00:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:10.423885
- Title: AI Benchmarks and Datasets for LLM Evaluation
- Title(参考訳): LLM評価のためのAIベンチマークとデータセット
- Authors: Todor Ivanov, Valeri Penchev,
- Abstract要約: EU AI Actは、2024年3月13日に欧州議会が提出したEUAIActを引用し、AIシステムの開発、配備、使用に関するEU全体の最初の包括的な要件を定めている。
AIシステムによって引き起こされる技術的課題に効果的に対処するために、この方法論を実用的なベンチマークで強化する必要性を強調している。
私たちは、AIベンチマークの収集と分類を目的とした、AI Safety Bulgariaイニシアチブ(citeAI_Safety_Bulgaria)の一部として、プロジェクトをローンチした。
- 参考スコア(独自算出の注目度): 0.46960837342692324
- License:
- Abstract: LLMs demand significant computational resources for both pre-training and fine-tuning, requiring distributed computing capabilities due to their large model sizes \cite{sastry2024computing}. Their complex architecture poses challenges throughout the entire AI lifecycle, from data collection to deployment and monitoring \cite{OECD_AIlifecycle}. Addressing critical AI system challenges, such as explainability, corrigibility, interpretability, and hallucination, necessitates a systematic methodology and rigorous benchmarking \cite{guldimann2024complai}. To effectively improve AI systems, we must precisely identify systemic vulnerabilities through quantitative evaluation, bolstering system trustworthiness. The enactment of the EU AI Act \cite{EUAIAct} by the European Parliament on March 13, 2024, establishing the first comprehensive EU-wide requirements for the development, deployment, and use of AI systems, further underscores the importance of tools and methodologies such as Z-Inspection. It highlights the need to enrich this methodology with practical benchmarks to effectively address the technical challenges posed by AI systems. To this end, we have launched a project that is part of the AI Safety Bulgaria initiatives \cite{AI_Safety_Bulgaria}, aimed at collecting and categorizing AI benchmarks. This will enable practitioners to identify and utilize these benchmarks throughout the AI system lifecycle.
- Abstract(参考訳): LLMは事前学習と微調整の両方に重要な計算資源を必要としており、大きなモデルサイズであるcite{sastry2024computing} のために分散コンピューティング能力を必要としている。
複雑なアーキテクチャは、データ収集からデプロイメント、および‘cite{OECD_AIlifecycle}’まで、AIライフサイクル全体にわたって課題を提起する。
説明可能性、校正性、解釈可能性、幻覚といった重要なAIシステムの課題に対処するには、体系的な方法論と厳格なベンチマークが必要である。
AIシステムを効果的に改善するためには、定量的評価、システムの信頼性向上を通じて、システム脆弱性を正確に識別する必要がある。
2024年3月13日、欧州議会によるEU AI Act \cite{EUAIAct} の制定により、Z-Inspectionのようなツールや方法論の重要性が強調された。
AIシステムによって引き起こされる技術的課題に効果的に対処するために、この方法論を実用的なベンチマークで強化する必要性を強調している。
この目的のために、私たちは、AIベンチマークの収集と分類を目的とした、AI Safety Bulgaria Initiatives \cite{AI_Safety_Bulgaria}の一部として、プロジェクトを立ち上げた。
これにより、実践者はAIシステムのライフサイクルを通じてこれらのベンチマークを特定し、利用することができる。
関連論文リスト
- EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Systematic Literature Review of AI-enabled Spectrum Management in 6G and Future Networks [29.38890315823053]
AI対応のSpectrum Managementの進歩の強化にはギャップがあります。
従来のスペクトル管理手法は、ダイナミックで複雑な要求のため、6Gでは不十分である。
発見は、重要なAISMシステムにおける未探索のAI利用などの課題を明らかにする。
論文 参考訳(メタデータ) (2024-06-12T11:31:42Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping [23.92695048003188]
本稿では,3つのコンポーネントからなるAIシステム評価フレームワークを提案する。
このフレームワークは、モデル中心のアプローチを越えて、AIシステム評価に関するより深い議論を触媒する。
論文 参考訳(メタデータ) (2024-04-08T10:49:59Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Proceedings of the Robust Artificial Intelligence System Assurance
(RAISA) Workshop 2022 [0.0]
RAISAワークショップは、堅牢な人工知能(AI)と機械学習(ML)システムの研究、開発、応用に焦点を当てる。
特定のMLアルゴリズムに関してロバストネスを研究するのではなく、システムアーキテクチャのレベルでロバストネスの保証を検討することを目的としています。
論文 参考訳(メタデータ) (2022-02-10T01:15:50Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - AAAI FSS-19: Human-Centered AI: Trustworthiness of AI Models and Data
Proceedings [8.445274192818825]
予測モデルは不確実性を認識し、信頼できる予測をもたらすことが不可欠である。
このシンポジウムの焦点は、データ品質と技術的堅牢性と安全性を改善するAIシステムであった。
広く定義された領域からの提出はまた、説明可能なモデル、人間の信頼、AIの倫理的側面といった要求に対処するアプローチについても論じた。
論文 参考訳(メタデータ) (2020-01-15T15:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。