論文の概要: A Dataset for Enhancing MLLMs in Visualization Understanding and Reconstruction
- arxiv url: http://arxiv.org/abs/2506.21319v2
- Date: Tue, 01 Jul 2025 10:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 13:52:14.03168
- Title: A Dataset for Enhancing MLLMs in Visualization Understanding and Reconstruction
- Title(参考訳): MLLMの可視化と再構築のためのデータセット
- Authors: Can Liu, Chunlin Da, Xiaoxiao Long, Yuxiao Yang, Yu Zhang, Yong Wang,
- Abstract要約: 現在のマルチモーダル大言語モデル(MLLM)は、データ-視覚マッピングをデコードできず、構造化された情報を抽出できないため、可視化の理解に苦慮している。
マークタイプ,位置,サイズを含むチャート要素を符号化するコンパクトで構造化されたベクトルフォーマットであるSimVecを提案する。
本稿では,グラフのビットマップ画像,対応するSimVec表現,データ中心の問合せペアからなる新しい可視化データセットを提案する。
- 参考スコア(独自算出の注目度): 10.168582728627042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal large language models (MLLMs), while effective in natural image understanding, struggle with visualization understanding due to their inability to decode the data-to-visual mapping and extract structured information. To address these challenges, we propose SimVec, a compact and structured vector format that encodes chart elements, including mark types, positions, and sizes. Then, we present a new visualization dataset, which consists of bitmap images of charts, their corresponding SimVec representations, and data-centric question-answering pairs, each accompanied by explanatory chain-of-thought sentences. We fine-tune state-of-the-art MLLMs using our dataset. The experimental results show that fine-tuning leads to substantial improvements in data-centric reasoning tasks compared to their zero-shot versions. SimVec also enables MLLMs to accurately and compactly reconstruct chart structures from images. Our dataset and code are available at: https://github.com/VIDA-Lab/MLLM4VIS.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル(MLLM)は、自然な画像理解には有効であるが、データ-視覚マッピングをデコードできず、構造化された情報を抽出できないため、可視化理解に苦慮している。
これらの課題に対処するために、マークタイプ、位置、サイズを含むチャート要素を符号化するコンパクトで構造化されたベクトルフォーマットであるSimVecを提案する。
次に、グラフのビットマップ画像、対応するSimVec表現、データ中心の質問応答ペアからなる新しい可視化データセットを提案する。
我々のデータセットを使って最先端のMLLMを微調整する。
実験結果から、微調整はゼロショット版に比べてデータ中心の推論タスクを大幅に改善することが示された。
SimVecはまた、MLLMが画像からチャート構造を正確かつコンパクトに再構築することを可能にする。
私たちのデータセットとコードは、https://github.com/VIDA-Lab/MLLM4VIS.comで公開されています。
関連論文リスト
- On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文 参考訳(メタデータ) (2025-03-24T08:33:58Z) - Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data [51.57559025799189]
本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-16T13:16:37Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。