Fugu-MT 論文翻訳(概要): AI Benchmarks and Datasets for LLM Evaluation

論文の概要: AI Benchmarks and Datasets for LLM Evaluation

arxiv url: http://arxiv.org/abs/2412.01020v1
Date: Mon, 02 Dec 2024 00:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.340293
Title: AI Benchmarks and Datasets for LLM Evaluation
Title（参考訳）: LLM評価のためのAIベンチマークとデータセット
Authors: Todor Ivanov, Valeri Penchev,
Abstract要約: EU AI Actは、2024年3月13日に欧州議会が提出したEUAIActを引用し、AIシステムの開発、配備、使用に関するEU全体の最初の包括的な要件を定めている。 AIシステムによって引き起こされる技術的課題に効果的に対処するために、この方法論を実用的なベンチマークで強化する必要性を強調している。私たちは、AIベンチマークの収集と分類を目的とした、AI Safety Bulgariaイニシアチブ(citeAI_Safety_Bulgaria)の一部として、プロジェクトをローンチした。
参考スコア（独自算出の注目度）: 0.46960837342692324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs demand significant computational resources for both pre-training and fine-tuning, requiring distributed computing capabilities due to their large model sizes \cite{sastry2024computing}. Their complex architecture poses challenges throughout the entire AI lifecycle, from data collection to deployment and monitoring \cite{OECD_AIlifecycle}. Addressing critical AI system challenges, such as explainability, corrigibility, interpretability, and hallucination, necessitates a systematic methodology and rigorous benchmarking \cite{guldimann2024complai}. To effectively improve AI systems, we must precisely identify systemic vulnerabilities through quantitative evaluation, bolstering system trustworthiness. The enactment of the EU AI Act \cite{EUAIAct} by the European Parliament on March 13, 2024, establishing the first comprehensive EU-wide requirements for the development, deployment, and use of AI systems, further underscores the importance of tools and methodologies such as Z-Inspection. It highlights the need to enrich this methodology with practical benchmarks to effectively address the technical challenges posed by AI systems. To this end, we have launched a project that is part of the AI Safety Bulgaria initiatives \cite{AI_Safety_Bulgaria}, aimed at collecting and categorizing AI benchmarks. This will enable practitioners to identify and utilize these benchmarks throughout the AI system lifecycle.
Abstract（参考訳）: LLMは事前学習と微調整の両方に重要な計算資源を必要としており、大きなモデルサイズであるcite{sastry2024computing} のために分散コンピューティング能力を必要としている。複雑なアーキテクチャは、データ収集からデプロイメント、および‘cite{OECD_AIlifecycle}’まで、AIライフサイクル全体にわたって課題を提起する。説明可能性、校正性、解釈可能性、幻覚といった重要なAIシステムの課題に対処するには、体系的な方法論と厳格なベンチマークが必要である。 AIシステムを効果的に改善するためには、定量的評価、システムの信頼性向上を通じて、システム脆弱性を正確に識別する必要がある。 2024年3月13日、欧州議会によるEU AI Act \cite{EUAIAct} の制定により、Z-Inspectionのようなツールや方法論の重要性が強調された。 AIシステムによって引き起こされる技術的課題に効果的に対処するために、この方法論を実用的なベンチマークで強化する必要性を強調している。この目的のために、私たちは、AIベンチマークの収集と分類を目的とした、AI Safety Bulgaria Initiatives \cite{AI_Safety_Bulgaria}の一部として、プロジェクトを立ち上げた。これにより、実践者はAIシステムのライフサイクルを通じてこれらのベンチマークを特定し、利用することができる。

関連論文リスト

Rethinking Data Protection in the (Generative) Artificial Intelligence Era [115.71019708491386]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文参考訳（メタデータ） (2025-07-03T02:45:51Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文参考訳（メタデータ） (2025-03-06T09:44:18Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Systematic Literature Review of AI-enabled Spectrum Management in 6G and Future Networks [29.38890315823053]
AI対応のSpectrum Managementの進歩の強化にはギャップがあります。従来のスペクトル管理手法は、ダイナミックで複雑な要求のため、6Gでは不十分である。発見は、重要なAISMシステムにおける未探索のAI利用などの課題を明らかにする。
論文参考訳（メタデータ） (2024-06-12T11:31:42Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文参考訳（メタデータ） (2023-11-22T04:43:16Z)
Human-Centric Multimodal Machine Learning: Recent Advances and Testbed on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。 i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文参考訳（メタデータ） (2023-02-13T16:44:44Z)
AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文参考訳（メタデータ） (2023-01-08T15:02:38Z)
Proceedings of the Robust Artificial Intelligence System Assurance (RAISA) Workshop 2022 [0.0]
RAISAワークショップは、堅牢な人工知能(AI)と機械学習(ML)システムの研究、開発、応用に焦点を当てる。特定のMLアルゴリズムに関してロバストネスを研究するのではなく、システムアーキテクチャのレベルでロバストネスの保証を検討することを目的としています。
論文参考訳（メタデータ） (2022-02-10T01:15:50Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
AAAI FSS-19: Human-Centered AI: Trustworthiness of AI Models and Data Proceedings [8.445274192818825]
予測モデルは不確実性を認識し、信頼できる予測をもたらすことが不可欠である。このシンポジウムの焦点は、データ品質と技術的堅牢性と安全性を改善するAIシステムであった。広く定義された領域からの提出はまた、説明可能なモデル、人間の信頼、AIの倫理的側面といった要求に対処するアプローチについても論じた。
論文参考訳（メタデータ） (2020-01-15T15:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。