論文の概要: Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports
- arxiv url: http://arxiv.org/abs/2505.17625v1
- Date: Fri, 23 May 2025 08:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.931027
- Title: Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports
- Title(参考訳): 日本の年次証券報告書に対する質問紙回答のためのレイアウトモードによる大規模ビジョンランゲージモデルの構築
- Authors: Hayato Aida, Kosuke Takahashi, Takahiro Omi,
- Abstract要約: In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。
実験により,これらの補助モーダルは性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 4.2134954427867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advancements in Large Language Models (LLMs) and growing interest in retrieval-augmented generation (RAG), the ability to understand table structures has become increasingly important. This is especially critical in financial domains such as securities reports, where highly accurate question answering (QA) over tables is required. However, tables exist in various formats-including HTML, images, and plain text-making it difficult to preserve and extract structural information. Therefore, multimodal LLMs are essential for robust and general-purpose table understanding. Despite their promise, current Large Vision-Language Models (LVLMs), which are major representatives of multimodal LLMs, still face challenges in accurately understanding characters and their spatial relationships within documents. In this study, we propose a method to enhance LVLM-based table understanding by incorporating in-table textual content and layout features. Experimental results demonstrate that these auxiliary modalities significantly improve performance, enabling robust interpretation of complex document layouts without relying on explicitly structured input formats.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の進歩と検索強化世代 (RAG) への関心の高まりにより,表構造を理解する能力の重要性が高まっている。
これは証券報告書などの金融分野において特に重要であり、テーブル上での高精度な質問応答(QA)が必要である。
しかし、HTML、画像、平易なテキストを含む様々な形式に表が存在するため、構造情報の保存と抽出が困難である。
したがって、マルチモーダル LLM は頑健で汎用的なテーブル理解に不可欠である。
現在のLVLM(Large Vision-Language Models)は、その約束にもかかわらず、文書内の文字とその空間的関係を正確に理解する上で、依然として課題に直面している。
本研究では,テーブル内テキストの内容とレイアウト機能を組み込むことで,LVLMに基づくテーブル理解を向上する手法を提案する。
実験の結果、これらの補助モーダルティクスは性能を著しく向上させ、明示的に構造化された入力形式に頼ることなく、複雑な文書レイアウトの堅牢な解釈を可能にした。
関連論文リスト
- Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。
Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文 参考訳(メタデータ) (2024-11-13T11:02:04Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。