論文の概要: Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing
- arxiv url: http://arxiv.org/abs/2603.06503v1
- Date: Fri, 06 Mar 2026 17:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.298525
- Title: Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing
- Title(参考訳): 推論への道のり:マルチモーダルスプレッドシートの理解と編集のためのエージェント検索
- Authors: Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul,
- Abstract要約: 単一パス検索を反復ツール呼び出しループに置き換える,スプレッドシート理解のためのフレームワークであるBeyond Rows to Reasoning(BRTR)を紹介する。
BRTRは3つのフロンティアスプレッドシート理解ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.7723674433972977
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in multimodal Retrieval-Augmented Generation (RAG) enable Large Language Models (LLMs) to analyze enterprise spreadsheet workbooks containing millions of cells, cross-sheet dependencies, and embedded visual artifacts. However, state-of-the-art approaches exclude critical context through single-pass retrieval, lose data resolution through compression, and exceed LLM context windows through naive full-context injection, preventing reliable multi-step reasoning over complex enterprise workbooks. We introduce Beyond Rows to Reasoning (BRTR), a multimodal agentic framework for spreadsheet understanding that replaces single-pass retrieval with an iterative tool-calling loop, supporting end-to-end Excel workflows from complex analysis to structured editing. Supported by over 200 hours of expert human evaluation, BRTR achieves state-of-the-art performance across three frontier spreadsheet understanding benchmarks, surpassing prior methods by 25 percentage points on FRTR-Bench, 7 points on SpreadsheetLLM, and 32 points on FINCH. We evaluate five multimodal embedding models, identifying NVIDIA NeMo Retriever 1B as the top performer for mixed tabular and visual data, and vary nine LLMs. Ablation experiments confirm that the planner, retrieval, and iterative reasoning each contribute substantially, and cost analysis shows GPT-5.2 achieves the best efficiency-accuracy trade-off. Throughout all evaluations, BRTR maintains full auditability through explicit tool-call traces.
- Abstract(参考訳): マルチモーダル検索・拡張生成(RAG)の最近の進歩により、大規模言語モデル(LLM)は、数百万のセル、クロスシート依存関係、組み込みビジュアルアーティファクトを含むエンタープライズスプレッドシートワークブックを分析することができる。
しかし、最先端のアプローチでは、単一パス検索によるクリティカルコンテキストを除外し、圧縮によるデータ解像度を失い、単純で完全なコンテキスト注入によるLLMコンテキストウィンドウを超え、複雑なエンタープライズワークブックに対する信頼性の高いマルチステップ推論を防止している。
Beyond Rows to Reasoning (BRTR, Beyond Rows to Reasoning)は,単一パス検索を反復的なツール呼び出しループに置き換え,複雑な解析から構造化編集までのExcelワークフローをサポートする,マルチモーダルなスプレッドシート理解のためのエージェントフレームワークである。
BRTRは200時間以上の人的評価によって支援され、3つのフロンティアスプレッドシート理解ベンチマークで最先端のパフォーマンスを達成し、FRTR-Benchで25ポイント、SpreadsheetLLMで7ポイント、FINCHで32ポイントを突破した。
我々は5つのマルチモーダル埋め込みモデルを評価し、NVIDIA NeMo Retriever 1Bを混合表と視覚データのトップパフォーマーとして同定し、9つのLLMを変化させた。
アブレーション実験により, プランナー, 検索, 反復的推論がそれぞれ大きく寄与していることが確認され, コスト分析の結果, GPT-5.2が最適効率と精度のトレードオフを実現することがわかった。
すべての評価を通じて、BRTRは明示的なツールコールトレースを通じて完全な監査性を維持している。
関連論文リスト
- From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding [0.7723674433972977]
大規模言語モデル(LLM)は、数千行の数値行、複数のリンクシート、チャートやレシートなどの組み込みビジュアルコンテンツを含む大規模エンタープライズスプレッドシートの推論に苦慮している。
From Rows to Reasoning (FRTR, From Rows to Reasoning)はExcelのワークブックを細かな行、列、ブロックの埋め込みに分解する高度なマルチモーダル検索拡張生成フレームワークである。
FRTR-Benchの解答精度は,Claude Sonnet 4.5で74%向上した。
論文 参考訳(メタデータ) (2026-01-13T17:18:14Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems [0.0]
本稿では,マルチモーダルRAGシステムにおける2つの検索手法の比較分析を行う。
直接マルチモーダル埋め込み検索は、LLM-summary-based approachよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-11-20T18:56:49Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MuaLLM: A Multimodal Large Language Model Agent for Circuit Design Assistance with Hybrid Contextual Retrieval-Augmented Generation [0.0]
MuaLLMは、回路設計支援のためのオープンソースのマルチモーダル大規模言語モデル(LLM)エージェントである。
ハイブリッドなRetrieval-Augmented Generationフレームワークと、回路設計研究論文の適応ベクトルデータベースを統合する。
質問応答設計アシスタントとして機能し、複雑なクエリを解釈し、合理的な応答を提供する。
論文 参考訳(メタデータ) (2025-08-11T16:11:09Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。