論文の概要: Auto-BenchmarkCard: Automated Synthesis of Benchmark Documentation
- arxiv url: http://arxiv.org/abs/2512.09577v1
- Date: Wed, 10 Dec 2025 12:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.512362
- Title: Auto-BenchmarkCard: Automated Synthesis of Benchmark Documentation
- Title(参考訳): Auto-BenchmarkCard: ベンチマークドキュメンテーションの自動合成
- Authors: Aris Hofmann, Inge Vejsbjerg, Dhaval Salwala, Elizabeth M. Daly,
- Abstract要約: Auto-BenchmarkCardは、AIベンチマークの検証済みの記述を生成するワークフローである。
ベンチマークドキュメンテーションは不完全か不整合であることが多く、タスクやドメイン間でベンチマークを解釈し比較することは困難である。
- 参考スコア(独自算出の注目度): 4.044540605397838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Auto-BenchmarkCard, a workflow for generating validated descriptions of AI benchmarks. Benchmark documentation is often incomplete or inconsistent, making it difficult to interpret and compare benchmarks across tasks or domains. Auto-BenchmarkCard addresses this gap by combining multi-agent data extraction from heterogeneous sources (e.g., Hugging Face, Unitxt, academic papers) with LLM-driven synthesis. A validation phase evaluates factual accuracy through atomic entailment scoring using the FactReasoner tool. This workflow has the potential to promote transparency, comparability, and reusability in AI benchmark reporting, enabling researchers and practitioners to better navigate and evaluate benchmark choices.
- Abstract(参考訳): 本稿では,AIベンチマークの検証済み記述を生成するワークフローであるAuto-BenchmarkCardを紹介する。
ベンチマークドキュメンテーションは不完全か不整合であることが多く、タスクやドメイン間でベンチマークを解釈し比較することは困難である。
Auto-BenchmarkCardは、異種(Hugging Face、Unitxt、学術論文など)からのマルチエージェントデータ抽出とLLM駆動合成を組み合わせることで、このギャップに対処する。
検証フェーズは、FactReasonerツールを用いた原子内包スコアリングにより、事実精度を評価する。
このワークフローは、AIベンチマークレポートにおける透明性、コンパラビリティ、再利用性を促進する可能性があるため、研究者や実践者がベンチマークの選択をよりよくナビゲートし、評価することができる。
関連論文リスト
- Mapping Overlaps in Benchmarks through Perplexity in the Wild [8.321258152814986]
我々は,大規模言語モデル(LLM)ベンチマークとその意味的な重複を特徴付けるために,キャパシティ親しみやすさのシグネチャを開発する。
本分析は,ベンチマーク質問の意味的類似性とモデル性能の相関性の両方に関して,シグネチャを定式化したものである。
最終的には、論理、数学、言語、命令追従、世界モデリングにまたがるクロスファンクショナルオーバーラップを識別し、コーディングが最重複の少ないドメインとして現れます。
論文 参考訳(メタデータ) (2025-09-27T20:23:13Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks [23.263430784766026]
大規模言語モデル(LLM)は多様なタスクを処理できる強力なツールである。
利用可能な多くのオプションを考えると、適切なベンチマークを見つけることは難しい。
直感的で検証可能なドキュメントフレームワークである textttBenchmarkCards を紹介します。
論文 参考訳(メタデータ) (2024-10-16T19:09:02Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。