論文の概要: Multimodal LLMs for Visualization Reconstruction and Understanding
- arxiv url: http://arxiv.org/abs/2506.21319v1
- Date: Thu, 26 Jun 2025 14:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.134395
- Title: Multimodal LLMs for Visualization Reconstruction and Understanding
- Title(参考訳): 可視化と理解のためのマルチモーダルLCM
- Authors: Can Liu, Chunlin Da, Xiaoxiao Long, Yuxiao Yang, Yu Zhang, Yong Wang,
- Abstract要約: 本稿では,新しいデータセットと学習用マルチモーダル・ビジュアライゼーション LLM について述べる。
提案手法では,グラフ画像と対応するベクトル化表現,符号化スキーム,データ特徴を組み合わせる。
実験結果から,データ抽出精度とチャート再構成精度の両面で有意な改善が認められた。
- 参考スコア(独自算出の注目度): 10.168582728627042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visualizations are crucial for data communication, yet understanding them requires comprehension of both visual elements and their underlying data relationships. Current multimodal large models, while effective in natural image understanding, struggle with visualization due to their inability to decode the data-to-visual mapping rules and extract structured information. To address these challenges, we present a novel dataset and train multimodal visualization LLMs specifically designed for understanding. Our approach combines chart images with their corresponding vectorized representations, encoding schemes, and data features. The proposed vector format enables compact and accurate reconstruction of visualization content. Experimental results demonstrate significant improvements in both data extraction accuracy and chart reconstruction quality.
- Abstract(参考訳): データ通信には可視化が不可欠だが、それらを理解するには、ビジュアル要素とその基盤となるデータ関係の両方を理解する必要がある。
現在のマルチモーダル大モデルは、自然な画像理解に有効であるが、データ-視覚マッピングルールをデコードできず、構造化された情報を抽出できないため、可視化に苦慮している。
これらの課題に対処するため、我々は新しいデータセットを示し、理解のために特別に設計されたマルチモーダル・ビジュアライゼーション LLM を訓練する。
提案手法では,グラフ画像と対応するベクトル化表現,符号化スキーム,データ特徴を組み合わせる。
提案したベクトルフォーマットは,可視化コンテンツのコンパクトかつ正確な再構成を可能にする。
実験結果から,データ抽出精度とチャート再構成精度の両面で有意な改善が認められた。
関連論文リスト
- On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文 参考訳(メタデータ) (2025-03-24T08:33:58Z) - Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data [51.57559025799189]
本稿では,Large Language Model (LLM) をテキストと視覚データの組み合わせで拡張する手法を提案する。
可視化とデータセットのテキスト記述と視覚化のスナップショットを組み合わせることでこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-16T13:16:37Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。