Fugu-MT 論文翻訳(概要): Multimodal Tabular Reasoning with Privileged Structured Information

論文の概要: Multimodal Tabular Reasoning with Privileged Structured Information

arxiv url: http://arxiv.org/abs/2506.04088v1
Date: Wed, 04 Jun 2025 15:46:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.431323
Title: Multimodal Tabular Reasoning with Privileged Structured Information
Title（参考訳）: 主観的構造化情報を用いたマルチモーダルタブラル推論
Authors: Jun-Peng Jiang, Yu Xia, Hai-Long Sun, Shiyin Lu, Qing-Guo Chen, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye,
Abstract要約: ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
参考スコア（独自算出の注目度）: 67.40011423365712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular reasoning involves multi-step information extraction and logical inference over tabular data. While recent advances have leveraged large language models (LLMs) for reasoning over structured tables, such high-quality textual representations are often unavailable in real-world settings, where tables typically appear as images. In this paper, we tackle the task of tabular reasoning from table images, leveraging privileged structured information available during training to enhance multimodal large language models (MLLMs). The key challenges lie in the complexity of accurately aligning structured information with visual representations, and in effectively transferring structured reasoning skills to MLLMs despite the input modality gap. To address these, we introduce TabUlar Reasoning with Bridged infOrmation ({\sc Turbo}), a new framework for multimodal tabular reasoning with privileged structured tables. {\sc Turbo} benefits from a structure-aware reasoning trace generator based on DeepSeek-R1, contributing to high-quality modality-bridged data. On this basis, {\sc Turbo} repeatedly generates and selects the advantageous reasoning paths, further enhancing the model's tabular reasoning ability. Experimental results demonstrate that, with limited ($9$k) data, {\sc Turbo} achieves state-of-the-art performance ($+7.2\%$ vs. previous SOTA) across multiple datasets.
Abstract（参考訳）: タブラル推論は、多段階の情報抽出と、表データに対する論理的推論を含む。近年の進歩は、構造化テーブル上の推論に大規模な言語モデル(LLM)を活用しているが、そのような高品質なテキスト表現は、通常、表が画像として現れる現実世界では利用できないことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)の強化のために,学習中に利用可能な特権構造化情報を活用することで,表画像からの表推論の課題に取り組む。重要な課題は、構造化された情報を視覚的表現と正確に整合させることの複雑さと、入力モダリティのギャップにもかかわらず、構造化された推論スキルをMLLMに効果的に転送することである。このような問題に対処するため,Bridged InfOrmation ({\sc Turbo}) を用いた TabUlar Reasoning を導入する。 {\sc TurboはDeepSeek-R1に基づく構造対応の推論トレースジェネレータの恩恵を受け、高品質なモダリティブリッジデータに寄与する。そこで, {\sc Turbo {\displaystyle {\sc Turbo} は, 有利な推論経路を繰り返し生成し, 選択する。実験結果は、制限された9$kのデータで、複数のデータセットで最先端のパフォーマンス(+7.2\%対以前のSOTA)を達成することを示した。

関連論文リスト

LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文参考訳（メタデータ） (2025-05-23T08:36:22Z)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文参考訳（メタデータ） (2025-03-06T12:50:14Z)
Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data [1.0621665950143144]
現在の表要約法は、人間に優しい出力の重要な側面を無視することが多い。本稿では,Theme-Explanation Structure-based Table Summarization (Tabular-TX) パイプラインを紹介する。
論文参考訳（メタデータ） (2025-01-17T08:42:49Z)
Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文参考訳（メタデータ） (2024-11-13T11:02:04Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-01-09T07:46:26Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。 UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文参考訳（メタデータ） (2022-12-20T09:15:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。