論文の概要: From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding
- arxiv url: http://arxiv.org/abs/2601.08741v1
- Date: Tue, 13 Jan 2026 17:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.30483
- Title: From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding
- Title(参考訳): RowsからReasoning: スプレッドシート理解のための検索強化マルチモーダルフレームワーク
- Authors: Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul,
- Abstract要約: 大規模言語モデル(LLM)は、数千行の数値行、複数のリンクシート、チャートやレシートなどの組み込みビジュアルコンテンツを含む大規模エンタープライズスプレッドシートの推論に苦慮している。
From Rows to Reasoning (FRTR, From Rows to Reasoning)はExcelのワークブックを細かな行、列、ブロックの埋め込みに分解する高度なマルチモーダル検索拡張生成フレームワークである。
FRTR-Benchの解答精度は,Claude Sonnet 4.5で74%向上した。
- 参考スコア(独自算出の注目度): 0.7723674433972977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) struggle to reason over large-scale enterprise spreadsheets containing thousands of numeric rows, multiple linked sheets, and embedded visual content such as charts and receipts. Prior state-of-the-art spreadsheet reasoning approaches typically rely on single-sheet compression or full-context encoding, which limits scalability and fails to reflect how real users interact with complex, multimodal workbooks. We introduce FRTR-Bench, the first large-scale benchmark for multimodal spreadsheet reasoning, comprising 30 enterprise-grade Excel workbooks spanning nearly four million cells and more than 50 embedded images. To address these challenges, we present From Rows to Reasoning (FRTR), an advanced, multimodal retrieval-augmented generation framework that decomposes Excel workbooks into granular row, column, and block embeddings, employs hybrid lexical-dense retrieval with Reciprocal Rank Fusion (RRF), and integrates multimodal embeddings to reason over both numerical and visual information. We tested FRTR on six LLMs, achieving 74% answer accuracy on FRTR-Bench with Claude Sonnet 4.5, a substantial improvement over prior state-of-the-art approaches that reached only 24%. On the SpreadsheetLLM benchmark, FRTR achieved 87% accuracy with GPT-5 while reducing token usage by roughly 50% compared to context-compression methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数千行の数値行、複数のリンクシート、チャートやレシートなどの組み込みビジュアルコンテンツを含む大規模エンタープライズスプレッドシートの推論に苦慮している。
従来の最先端のスプレッドシート推論アプローチは、通常はシングルシート圧縮やフルコンテキストエンコーディングに依存しており、スケーラビリティを制限し、実際のユーザが複雑なマルチモーダルワークブックとどのように相互作用するかを反映しない。
我々は,400万近いセルと50以上の埋め込み画像にまたがる30のエンタープライズグレードのExcelワークブックからなる,マルチモーダルスプレッドシート推論のための最初の大規模ベンチマークであるFRTR-Benchを紹介する。
これらの課題に対処するために、Excelワークブックをグラニュラー行、列、ブロック埋め込みに分解する高度なマルチモーダル検索拡張生成フレームワークであるFrom Rows to Reasoning (FRTR) を紹介し、Reciprocal Rank Fusion (RRF) とハイブリッドレキシカルセンス検索を採用し、数値情報と視覚情報の両方を解析するためにマルチモーダル埋め込みを統合する。
FRTR-Benchの解答精度は,Claude Sonnet 4.5で74%向上した。
SpreadsheetLLMベンチマークでは、FRTRはGPT-5で87%の精度を達成し、コンテクスト圧縮法と比較してトークンの使用量を約50%削減した。
関連論文リスト
- SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations [1.3669571918482655]
本稿では,スプレッドシート操作から人間が読める説明を生成するAIタスクである,スプレッドシート操作文書(SOD)を紹介する。
本稿では,111のスプレッドシート操作コードスニペットのベンチマークを,対応する自然言語要約と組み合わせて提示する。
以上の結果から,LSMは正確なスプレッドシートドキュメンテーションを生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-22T01:36:13Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
本研究では,スプレッドシート上での大規模言語モデル(LLM)の効率的な符号化手法であるSpreadsheetLLMを紹介する。
LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。
シート圧縮機を用いた微調整LDMは平均圧縮比25倍であり、最先端の78.9%のF1スコアを達成し、既存の最高のモデルよりも12.3%上回っている。
論文 参考訳(メタデータ) (2024-07-12T06:34:21Z) - SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation [34.8332394229927]
SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。
単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T09:06:45Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。