Fugu-MT 論文翻訳(概要): Multimodal Graph Constrastive Learning and Prompt for ChartQA

論文の概要: Multimodal Graph Constrastive Learning and Prompt for ChartQA

arxiv url: http://arxiv.org/abs/2501.04303v1
Date: Wed, 08 Jan 2025 06:27:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.565665
Title: Multimodal Graph Constrastive Learning and Prompt for ChartQA
Title（参考訳）: チャートQAのためのマルチモーダルグラフ構築学習とプロンプト
Authors: Yue Dai, Soyeon Caren Han, Wei Liu,
Abstract要約: ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
参考スコア（独自算出の注目度）: 11.828192162922436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ChartQA presents significant challenges due to the complex distribution of chart elements and the implicit patterns embedded within the underlying data. In this chapter, we have developed a joint multimodal scene graph for charts, explicitly representing the relationships between chart elements and their associated patterns. Our proposed multimodal scene graph consists of two components: a visual graph and a textual graph, each designed to capture the structural and semantic information within the chart. To unify representations across these different modalities, we introduce a multimodal graph contrastive learning approach that learns unified representations by maximizing similarity between nodes representing the same object across multimodal graphs. The learned graph representations can be seamlessly incorporated into a transformer decoder as a soft prompt. Additionally, given the growing need for Multimodal Large Language Models (MLLMs) in zero-shot scenarios, we have designed Chain-of-Thought (CoT) prompts for MLLMs to reduce hallucinations. We tested both methods on public benchmarks such as ChartQA, OpenCQA, and ChartX, demonstrating improved performance and validating the effectiveness of our proposed methods.
Abstract（参考訳）: ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。本章では,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。提案するマルチモーダルシーングラフは,視覚グラフとテキストグラフの2つの構成要素から構成される。これらの異なるモダリティにまたがる表現を統一するために、同じ対象を表すノード間の類似性を最大化し、統一表現を学習するマルチモーダルグラフコントラスト学習手法を導入する。学習したグラフ表現は、ソフトプロンプトとしてトランスフォーマーデコーダにシームレスに組み込むことができる。さらに,ゼロショットシナリオにおけるMLLM(Multimodal Large Language Models)の必要性が高まる中,MLLMが幻覚を減らすためにChain-of-Thought(CoT)プロンプトを設計した。両手法をChartQA,OpenCQA,ChartXなどの公開ベンチマークで検証し,性能向上と提案手法の有効性を検証した。

関連論文リスト

Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文参考訳（メタデータ） (2025-04-14T00:07:39Z)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models [0.0]
本稿では,チャート要約のためのEnd-to-End Visual Chain-of-Thought (V-CoT)を提案する。本手法では,LVLMを直接トレーニングして,チャート画像の処理とテキスト要約をエンドツーエンドで生成する。我々は、視覚的推論ステップを実行するためにLVLMを暗黙的に誘導する、微調整による視覚的連鎖機構を組み込んだ。
論文参考訳（メタデータ） (2025-02-24T19:13:45Z)
ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。 LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文参考訳（メタデータ） (2024-12-30T05:07:34Z)
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。 Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文参考訳（メタデータ） (2024-10-09T17:56:15Z)
MSG-Chart: Multimodal Scene Graph for ChartQA [11.828192162922436]
グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。チャート要素とそれらのパターンの関係を明示的に表すために、チャートのための共同マルチモーダルシーングラフを設計する。提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
論文参考訳（メタデータ） (2024-08-09T04:11:23Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。 ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文参考訳（メタデータ） (2024-02-19T14:48:23Z)
StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文参考訳（メタデータ） (2023-09-20T12:51:13Z)
r-GAT: Relational Graph Attention Network for Multi-Relational Graphs [8.529080554172692]
Graph Attention Network (GAT)は、単純な無方向性グラフと単一のリレーショナルグラフデータのみをモデル化することに焦点を当てている。マルチチャネルエンティティ表現を学習するための関係グラフアテンションネットワークであるr-GATを提案する。リンク予測とエンティティ分類タスクの実験は、我々のr-GATがマルチリレーショナルグラフを効果的にモデル化できることを示します。
論文参考訳（メタデータ） (2021-09-13T12:43:00Z)
Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文参考訳（メタデータ） (2021-07-20T22:09:21Z)
Multi-view Graph Learning by Joint Modeling of Consistency and Inconsistency [65.76554214664101]
グラフ学習は、複数のビューから統一的で堅牢なグラフを学ぶ能力を備えた、マルチビュークラスタリングのための有望なテクニックとして登場した。本稿では,統合目的関数における多視点一貫性と多視点不整合を同時にモデル化する,新しい多視点グラフ学習フレームワークを提案する。 12のマルチビューデータセットに対する実験は、提案手法の堅牢性と効率性を実証した。
論文参考訳（メタデータ） (2020-08-24T06:11:29Z)
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。 CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文参考訳（メタデータ） (2020-08-04T08:25:24Z)
Tensor Graph Convolutional Networks for Multi-relational and Robust Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文参考訳（メタデータ） (2020-03-15T02:33:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。