論文の概要: VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation
- arxiv url: http://arxiv.org/abs/2506.13326v1
- Date: Mon, 16 Jun 2025 10:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.096981
- Title: VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation
- Title(参考訳): VIS-Shepherd:LLMに基づくデータ可視化のための批判の構築
- Authors: Bo Pan, Yixiao Fu, Ke Wang, Junyu Lu, Lunke Pan, Ziyang Qian, Yuhan Chen, Guoliang Wang, Yitao Zhou, Li Zheng, Yinghao Tang, Zhen Wen, Yuchen Wu, Junhua Lu, Biao Zhu, Minfeng Zhu, Bo Zhang, Wei Chen,
- Abstract要約: MLLM(Multimodal Large Language Model)をベースとした評価モデルであるVIS-Shepherdを紹介する。
当社のアプローチの核心は、高品質な可視化基準データセットを構築するためのフレームワークです。
実験の結果,オープンソースMLLMモデルでは,小型(7Bパラメータ)のMLLMモデルでも大幅な性能向上が得られた。
- 参考スコア(独自算出の注目度): 17.6462454905092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data visualization generation using Large Language Models (LLMs) has shown promising results but often produces suboptimal visualizations that require human intervention for improvement. In this work, we introduce VIS-Shepherd, a specialized Multimodal Large Language Model (MLLM)-based critic to evaluate and provide feedback for LLM-generated data visualizations. At the core of our approach is a framework to construct a high-quality visualization critique dataset, where we collect human-created visualization instances, synthesize corresponding LLM-generated instances, and construct high-quality critiques. We conduct both model-based automatic evaluation and human preference studies to evaluate the effectiveness of our approach. Our experiments show that even small (7B parameters) open-source MLLM models achieve substantial performance gains by leveraging our high-quality visualization critique dataset, reaching levels comparable to much larger open-source or even proprietary models. Our work demonstrates significant potential for MLLM-based automated visualization critique and indicates promising directions for enhancing LLM-based data visualization generation. Our project page: https://github.com/bopan3/VIS-Shepherd.
- Abstract(参考訳): LLM(Large Language Models)を用いたデータビジュアライゼーション生成は有望な結果を示しているが、改善のために人間の介入を必要とする最適以下のビジュアライゼーションを生成することが多い。
本研究では,マルチモーダル大言語モデル (MLLM) をベースとした批判モデルである VIS-Shepherd を導入し,LLM 生成したデータビジュアライゼーションの評価とフィードバックを行う。
提案手法の核心となるのは,人間の生成した視覚化インスタンスを収集し,対応するLCM生成インスタンスを合成し,高品質なビジュアライゼーションクリティカルデータセットを構築するためのフレームワークである。
提案手法の有効性を評価するために,モデルに基づく自動評価と人選好研究の両方を行う。
実験の結果,オープンソースMLLMの小型(7Bパラメータ)モデルでさえ,高品質な可視化基準データセットを活用して,はるかに大きなオープンソースモデルやプロプライエタリモデルに匹敵するレベルに達することで,大幅なパフォーマンス向上を実現していることがわかった。
本研究は,MLLMに基づく自動可視化に対する重要な可能性を示し,LLMに基づくデータ可視化生成を向上するための有望な方向性を示す。
私たちのプロジェクトページは、https://github.com/bopan3/VIS-Shepherdです。
関連論文リスト
- Concept-based Rubrics Improve LLM Formative Assessment and Data Synthesis [3.0748861313823]
STEMトピックスにおける形式的評価は、学生の現在の理解を識別し、さらなる学習を促進する方法を目標にすることで、学生の学習を促進することを目的としている。
従来の研究では,現在生成型大規模言語モデル(LLM)のオープンエンド質問に対する応答に対する評価性能が,高品質なラベル付きデータに基づいて訓練された教師付き分類器よりも著しく低いことが示唆された。
我々は,LLMの性能を著しく向上させることで,LLMの棚外評価ツールとしてのギャップを狭めることと,大量のトレーニングデータを必要とする教師付きモデルとのギャップを小さくすることができることを実証した。
論文 参考訳(メタデータ) (2025-04-04T19:02:07Z) - LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。