論文の概要: Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement
- arxiv url: http://arxiv.org/abs/2602.10138v1
- Date: Sun, 08 Feb 2026 12:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.164528
- Title: Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement
- Title(参考訳): チャート理解のためのマルチモーダル情報融合:MLLMの進化・限界・認知的強化に関する調査
- Authors: Zhihang Yi, Jian Zhao, Jiancheng Lv, Tao Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、チャート情報融合を変換する。
本調査は,MLLMがグラフ情報融合をどのように変換しているかを構造化された理解を得ることを目的としている。
- 参考スコア(独自算出の注目度): 25.08967298618286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart understanding is a quintessential information fusion task, requiring the seamless integration of graphical and textual data to extract meaning. The advent of Multimodal Large Language Models (MLLMs) has revolutionized this domain, yet the landscape of MLLM-based chart analysis remains fragmented and lacks systematic organization. This survey provides a comprehensive roadmap of this nascent frontier by structuring the domain's core components. We begin by analyzing the fundamental challenges of fusing visual and linguistic information in charts. We then categorize downstream tasks and datasets, introducing a novel taxonomy of canonical and non-canonical benchmarks to highlight the field's expanding scope. Subsequently, we present a comprehensive evolution of methodologies, tracing the progression from classic deep learning techniques to state-of-the-art MLLM paradigms that leverage sophisticated fusion strategies. By critically examining the limitations of current models, particularly their perceptual and reasoning deficits, we identify promising future directions, including advanced alignment techniques and reinforcement learning for cognitive enhancement. This survey aims to equip researchers and practitioners with a structured understanding of how MLLMs are transforming chart information fusion and to catalyze progress toward more robust and reliable systems.
- Abstract(参考訳): チャート理解は重要な情報融合タスクであり、意味を抽出するためにグラフィカルデータとテキストデータをシームレスに統合する必要がある。
MLLM(Multimodal Large Language Models)の出現は、この領域に革命をもたらしたが、MLLMベースのチャート分析の展望は断片化され、体系的な組織が欠如している。
この調査は、ドメインのコアコンポーネントを構築することで、この初期段階のフロンティアの包括的なロードマップを提供する。
まず、図表に視覚情報と言語情報を融合させる基本的な課題を分析することから始める。
次に、下流のタスクとデータセットを分類し、標準および非標準ベンチマークの新しい分類を導入し、フィールドの拡張範囲を強調します。
その後,従来の深層学習技術から高度融合戦略を活用した最先端MLLMパラダイムへの進展を追究し,方法論の包括的進化を示す。
現状のモデル,特に知覚障害と推論障害の限界を批判的に検証することにより,高度なアライメント技術や認知力向上のための強化学習を含む将来性のある方向性を特定する。
この調査は、MLLMがグラフ情報融合をどのように変換しているかを構造化された理解を得て、より堅牢で信頼性の高いシステムへの進展を触媒することを目的としている。
関連論文リスト
- The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection [35.503099074709006]
近年、大型視覚モデル(LVLM)の急速な進化は、マルチモーダルフェイクニュース(MFND)のパラダイムシフトを引き起こしている。
本稿では、歴史的視点、基礎モデルパラダイムへのマッピング、解釈可能性、時間的推論、ドメインの一般化など、残る技術的課題について論じる。
このパラダイムシフトの次の段階を導くための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2026-01-16T02:40:16Z) - The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM [27.800308082023285]
ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。
深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。
MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
論文 参考訳(メタデータ) (2025-07-29T10:07:24Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Graph Foundation Models for Recommendation: A Comprehensive Survey [55.70529188101446]
大規模言語モデル(LLM)は自然言語を処理し、理解するために設計されており、どちらも非常に効果的で広く採用されている。
最近の研究はグラフ基礎モデル(GFM)に焦点を当てている。
GFM は GNN と LLM の強みを統合し,複雑な RS 問題をより効率的にモデル化する。
論文 参考訳(メタデータ) (2025-02-12T12:13:51Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [31.71954519657729]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。