論文の概要: Graph-Based Multimodal Contrastive Learning for Chart Question Answering
- arxiv url: http://arxiv.org/abs/2501.04303v2
- Date: Mon, 07 Apr 2025 15:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:06:26.302019
- Title: Graph-Based Multimodal Contrastive Learning for Chart Question Answering
- Title(参考訳): チャート質問応答のためのグラフに基づくマルチモーダルコントラスト学習
- Authors: Yue Dai, Soyeon Caren Han, Wei Liu,
- Abstract要約: この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
- 参考スコア(独自算出の注目度): 11.828192162922436
- License:
- Abstract: Chart question answering (ChartQA) is challenged by the heterogeneous composition of chart elements and the subtle data patterns they encode. This work introduces a novel joint multimodal scene graph framework that explicitly models the relationships among chart components and their underlying structures. The framework integrates both visual and textual graphs to capture structural and semantic characteristics, while a graph contrastive learning strategy aligns node representations across modalities enabling their seamless incorporation into a transformer decoder as soft prompts. Moreover, a set of tailored Chain of Thought (CoT) prompts is proposed to enhance multimodal large language models (MLLMs) in zero-s ot scenarios by mitigating hallucinations. Extensive evaluations on benchmarks including ChartQA, OpenCQA, and ChartX demonstrate significant performance improvements and validate the efficacy of the proposed approach.
- Abstract(参考訳): チャート質問応答(ChartQA)は、チャート要素の不均一な構成と、それらがエンコードする微妙なデータパターンによって挑戦される。
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャし、グラフコントラスト学習戦略は、モジュール間のノード表現を整列させ、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込む。
さらに,幻覚を緩和することにより,ゼロ秒otシナリオにおけるマルチモーダル大言語モデル(MLLM)を強化するために,CoTプロンプトの調整を行った。
ChartQA、OpenCQA、ChartXなどのベンチマークの大規模な評価は、大幅なパフォーマンス向上を示し、提案手法の有効性を検証している。
関連論文リスト
- UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - MSG-Chart: Multimodal Scene Graph for ChartQA [11.828192162922436]
グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。
チャート要素とそれらのパターンの関係を明示的に表すために、チャートのための共同マルチモーダルシーングラフを設計する。
提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
論文 参考訳(メタデータ) (2024-08-09T04:11:23Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - r-GAT: Relational Graph Attention Network for Multi-Relational Graphs [8.529080554172692]
Graph Attention Network (GAT)は、単純な無方向性グラフと単一のリレーショナルグラフデータのみをモデル化することに焦点を当てている。
マルチチャネルエンティティ表現を学習するための関係グラフアテンションネットワークであるr-GATを提案する。
リンク予測とエンティティ分類タスクの実験は、我々のr-GATがマルチリレーショナルグラフを効果的にモデル化できることを示します。
論文 参考訳(メタデータ) (2021-09-13T12:43:00Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - Multi-view Graph Learning by Joint Modeling of Consistency and
Inconsistency [65.76554214664101]
グラフ学習は、複数のビューから統一的で堅牢なグラフを学ぶ能力を備えた、マルチビュークラスタリングのための有望なテクニックとして登場した。
本稿では,統合目的関数における多視点一貫性と多視点不整合を同時にモデル化する,新しい多視点グラフ学習フレームワークを提案する。
12のマルチビューデータセットに対する実験は、提案手法の堅牢性と効率性を実証した。
論文 参考訳(メタデータ) (2020-08-24T06:11:29Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。