論文の概要: MetaGAI: A Large-Scale and High-Quality Benchmark for Generative AI Model and Data Card Generation
- arxiv url: http://arxiv.org/abs/2604.23539v1
- Date: Sun, 26 Apr 2026 05:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.418389
- Title: MetaGAI: A Large-Scale and High-Quality Benchmark for Generative AI Model and Data Card Generation
- Title(参考訳): MetaGAI: 生成AIモデルとデータカード生成のための大規模かつ高品質なベンチマーク
- Authors: Haoxuan Zhang, Ruochi Li, Yang Zhang, Zhenni Liang, Junhua Ding, Ting Xiao, Haihua Chen,
- Abstract要約: 学術論文やGitHubリポジトリ,Hugging Faceアーティファクトのセマンティック三角測量によって構築された,2,541の検証済みドキュメントトリガからなる総合ベンチマークであるMetaGAIを紹介する。
従来のシングルソースデータセットとは異なり、MetaGAIでは、特殊なRetriever、Generator、Editorエージェントを備えたマルチエージェントフレームワークを採用し、4次元のHuman-in-the-loopアセスメントを通じて検証されている。
- 参考スコア(独自算出の注目度): 7.0330781653125145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of Generative AI necessitates rigorous documentation standards for transparency and governance. However, manual creation of Model and Data Cards is not scalable, while automated approaches lack large-scale, high-fidelity benchmarks for systematic evaluation. We introduce MetaGAI, a comprehensive benchmark comprising 2,541 verified document triplets constructed through semantic triangulation of academic papers, GitHub repositories, and Hugging Face artifacts. Unlike prior single-source datasets, MetaGAI employs a multi-agent framework with specialized Retriever, Generator, and Editor agents, validated through four-dimensional human-in-the-loop assessment, including human evaluation of editor-refined ground truth. We establish a robust evaluation protocol combining automated metrics with validated LLM-as-a-Judge frameworks. Extensive analysis reveals that sparse Mixture-of-Experts architectures achieve superior cost-quality efficiency, while a fundamental trade-off exists between faithfulness and completeness. MetaGAI provides a foundational testbed for benchmarking, training, and analyzing automated Model and Data Card generation methods at scale. Our data and code are available at: https://github.com/haoxuan-unt2024/MetaGAI-Benchmark.
- Abstract(参考訳): 生成AIの急速な普及は、透明性とガバナンスのための厳格なドキュメント標準を必要とする。
しかし、モデルとデータカードのマニュアル作成はスケーラブルではなく、自動化されたアプローチでは体系的な評価のための大規模で高忠実なベンチマークが欠落している。
学術論文やGitHubリポジトリ,Hugging Faceアーティファクトのセマンティック三角測量によって構築された,2,541の検証済みドキュメントトリガからなる総合ベンチマークであるMetaGAIを紹介する。
従来のシングルソースのデータセットとは異なり、MetaGAIは、特別なRetriever、Generator、Editorエージェントを備えたマルチエージェントフレームワークを採用しており、4次元のHuman-in-the-loopアセスメントを通じて検証されている。
LLM-as-a-Judgeフレームワークと自動メトリクスを組み合わせたロバストな評価プロトコルを構築した。
厳密な分析により、スパース・ミックス・オブ・エキスパート・アーキテクチャは、信頼性と完全性の間に基本的なトレードオフが存在する一方で、より優れたコスト品質の効率を実現することが判明した。
MetaGAIは、大規模なモデルとデータカードの自動生成メソッドをベンチマーク、トレーニング、分析するための基礎的なテストベッドを提供する。
私たちのデータとコードは、https://github.com/haoxuan-unt2024/MetaGAI-Benchmarkで利用可能です。
関連論文リスト
- VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation [65.0648741395158]
VGA-Benchは、ビデオ生成の品質と美的品質を評価するための統一されたベンチマークである。
我々は1016の多様なプロンプトを設計し、12のビデオ生成モデルを用いて6万以上のビデオの大規模データセットを生成する。
我々のモデルは人間の判断と信頼できる一致を実現し、精度と効率の両方を提供する。
論文 参考訳(メタデータ) (2026-04-11T09:44:39Z) - AdaQE-CG: Adaptive Query Expansion for Web-Scale Generative AI Model and Data Card Generation [6.289039465679207]
本稿では,動的情報抽出とカード間知識伝達を組み合わせたカード生成用適応クエリ拡張フレームワークであるAdaQE-CGを提案する。
AdaQE-CGは、既存のアプローチを大幅に上回り、人間によるデータカードを超え、モデルカードの人間レベルの品質にアプローチする。
私たちは、GAIドキュメントを評価するための、最初の大規模でエキスパートアノテートされたベンチマークであるMetaGAI-Benchを紹介します。
論文 参考訳(メタデータ) (2026-03-16T04:02:56Z) - TokaMark: A Comprehensive Benchmark for MAST Tokamak Plasma Models [56.94569090844015]
TokaMarkは、Mega Ampere Spherical Tokamak (MAST)から収集された実実験データに基づいてAIモデルを評価するための構造化ベンチマークである。
TokaMarkは、データ駆動型AIベースのプラズマモデリングの進歩を加速することを目的としている。
論文 参考訳(メタデータ) (2026-02-05T16:49:44Z) - Auto-BenchmarkCard: Automated Synthesis of Benchmark Documentation [4.044540605397838]
Auto-BenchmarkCardは、AIベンチマークの検証済みの記述を生成するワークフローである。
ベンチマークドキュメンテーションは不完全か不整合であることが多く、タスクやドメイン間でベンチマークを解釈し比較することは困難である。
論文 参考訳(メタデータ) (2025-12-10T12:09:44Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine [9.161127232765063]
本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。