論文の概要: SimVecVis: A Dataset for Enhancing MLLMs in Visualization Understanding
- arxiv url: http://arxiv.org/abs/2506.21319v3
- Date: Wed, 02 Jul 2025 09:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 12:13:55.52862
- Title: SimVecVis: A Dataset for Enhancing MLLMs in Visualization Understanding
- Title(参考訳): SimVecVis:可視化理解におけるMLLMの強化のためのデータセット
- Authors: Can Liu, Chunlin Da, Xiaoxiao Long, Yuxiao Yang, Yu Zhang, Yong Wang,
- Abstract要約: 現在の大言語モデル(MLLM)は、データと視覚のマッピングをデコードし、構造化された情報を抽出できないため、可視化の理解に苦慮している。
我々は,マークタイプ,位置,サイズなどのチャート要素を符号化する,新しい簡易なベクトル形式であるSimVecを提案する。
我々は、可視化理解におけるMLLMの性能を高めるために、新しい可視化データセット、SimVecVisを構築した。
- 参考スコア(独自算出の注目度): 10.168582728627042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal large language models (MLLMs), while effective in natural image understanding, struggle with visualization understanding due to their inability to decode the data-to-visual mapping and extract structured information. To address these challenges, we propose SimVec, a novel simplified vector format that encodes chart elements such as mark type, position, and size. The effectiveness of SimVec is demonstrated by using MLLMs to reconstruct chart information from SimVec formats. Then, we build a new visualization dataset, SimVecVis, to enhance the performance of MLLMs in visualization understanding, which consists of three key dimensions: bitmap images of charts, their SimVec representations, and corresponding data-centric question-answering (QA) pairs with explanatory chain-of-thought (CoT) descriptions. We finetune state-of-the-art MLLMs (e.g., MiniCPM and Qwen-VL), using SimVecVis with different dataset dimensions. The experimental results show that it leads to substantial performance improvements of MLLMs with good spatial perception capabilities (e.g., MiniCPM) in data-centric QA tasks. Our dataset and source code are available at: https://github.com/VIDA-Lab/SimVecVis.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル(MLLM)は、自然な画像理解には有効であるが、データ-視覚マッピングをデコードできず、構造化された情報を抽出できないため、可視化理解に苦慮している。
これらの課題に対処するために,マークタイプ,位置,サイズなどのチャート要素を符号化する,新しい簡易なベクトル形式であるSimVecを提案する。
MLLMを用いてSimVecフォーマットからチャート情報を再構成することにより、SimVecの有効性を実証する。
次に、グラフのビットマップ画像、SimVec表現、および説明連鎖(CoT)記述を伴う対応するデータ中心質問応答(QA)ペアの3つの重要な次元からなる可視化理解におけるMLLMの性能を高めるために、新しい可視化データセットであるSimVecVisを構築した。
異なるデータセット次元のSimVecVisを用いて、最先端MLLM(例えば、MiniCPM、Qwen-VL)を微調整する。
実験結果から,データ中心QAタスクにおける空間認識能力(MiniCPMなど)に優れたMLLMの性能向上が得られた。
私たちのデータセットとソースコードは、https://github.com/VIDA-Lab/SimVecVis.comで公開されています。
関連論文リスト
- On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文 参考訳(メタデータ) (2025-03-24T08:33:58Z) - Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data [51.57559025799189]
本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-16T13:16:37Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。