論文の概要: OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2603.08655v1
- Date: Mon, 09 Mar 2026 17:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.611007
- Title: OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
- Title(参考訳): OfficeQA Pro: エンドツーエンドのグラウンド推論のためのエンタープライズベンチマーク
- Authors: Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen,
- Abstract要約: 我々は、基礎化されたマルチドキュメント推論に基づいてAIエージェントを評価するベンチマークであるOfficeQA Proを紹介する。
OfficeQA Proは、正確な文書解析、検索、分析的推論を必要とする133の質問からなる。
Databricksのai_parse_documentによって生成された構造化文書表現をエージェントに提供すると、平均相対的なパフォーマンスが16.1%向上することがわかった。
- 参考スコア(独自算出の注目度): 34.493139441463995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OfficeQA Pro, a benchmark for evaluating AI agents on grounded, multi-document reasoning over a large and heterogeneous document corpus. The corpus consists of U.S. Treasury Bulletins spanning nearly 100 years, comprising 89,000 pages and over 26 million numerical values. OfficeQA Pro consists of 133 questions that require precise document parsing, retrieval, and analytical reasoning across both unstructured text and tabular data. Frontier LLMs including Claude Opus 4.6, GPT-5.4, and Gemini 3.1 Pro Preview achieve less than 5% accuracy on OfficeQA Pro when relying on parametric knowledge, and less than 12% with additional access to the web. When provided directly with the document corpus, frontier agents still struggle on over half of questions, scoring 34.1% on average. We find that providing agents with a structured document representation produced by Databricks' ai_parse_document yields a 16.1% average relative performance gain across agents. We conduct additional ablations to study the effects of model selection, table representation, retrieval strategy, and test-time scaling on performance. Despite these improvements, significant headroom remains before agents can be considered reliable at enterprise-grade grounded reasoning.
- Abstract(参考訳): 我々は、大規模で異質なドキュメントコーパス上で、基盤化されたマルチドキュメント推論に基づいてAIエージェントを評価するためのベンチマークであるOfficeQA Proを紹介する。
コーパスは100年近くに及ぶ米国財務省のブルエティンから成り、89,000ページと2600万以上の数値で構成されている。
OfficeQA Proは、構造化されていないテキストと表データの両方にわたる正確な文書解析、検索、分析的推論を必要とする133の質問で構成されている。
Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro Preview などのフロンティアLSMは、パラメトリック知識に依存している場合、OfficeQA Pro の精度は5%以下であり、ウェブへの追加アクセスでは12%以下である。
文書のコーパスが直接提供されると、フロンティアのエージェントは質問の半分以上で苦労し、平均34.1%のスコアを得た。
Databricksのai_parse_documentによって生成された構造化文書表現をエージェントに提供すると、エージェント間での平均相対的なパフォーマンスが16.1%向上することがわかった。
モデル選択,表表現,検索戦略,テストタイムスケーリングがパフォーマンスに与える影響について検討する。
これらの改善にもかかわらず、エージェントがエンタープライズグレードの根拠に基づく推論で信頼できると考えられる前に、重要なヘッドルームが残っている。
関連論文リスト
- ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Gavel: Agent Meets Checklist for Evaluating LLMs on Long-Context Legal Summarization [10.935436958494245]
大規模言語モデル(LLM)は、最大100万個のトークンのコンテキストをサポートするようになったが、複雑な長文タスクにおけるそれらの有効性はまだ不明である。
本研究は,100K-500Kトークンの多文書にまたがる多文書の判例要約について検討する。
本稿では,26項目以上の多値チェックリスト評価を行う参照ベース評価フレームワークであるGavel-Refを紹介する。
論文 参考訳(メタデータ) (2026-01-07T22:08:17Z) - DocReward: A Document Reward Model for Structuring and Stylizing [107.03974018371058]
DocRewardはドキュメントの構造とスタイルに基づいてドキュメントを評価するドキュメント報酬モデルである。
ブラッドリー・テリーの損失を利用して文書を採点し、注釈付きランキングに矛盾する予測を罰する訓練を受けている。
GPT-5の37.7%の勝利率に比べて60.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-13T13:36:32Z) - QUEST: Quality-aware Semi-supervised Table Extraction for Business Documents [0.1516287840715525]
QUESTはビジネス文書のための品質対応の半教師付きテーブル抽出フレームワークである。
QUESTは、信頼度基準に頼るのではなく、F1スコアを予測するために訓練された抽出テーブルの構造的特徴と文脈的特徴を評価する。
論文 参考訳(メタデータ) (2025-06-17T14:25:44Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。