論文の概要: VegaChat: A Robust Framework for LLM-Based Chart Generation and Assessment
- arxiv url: http://arxiv.org/abs/2601.15385v1
- Date: Wed, 21 Jan 2026 19:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.384573
- Title: VegaChat: A Robust Framework for LLM-Based Chart Generation and Assessment
- Title(参考訳): VegaChat: LLMベースのチャート生成とアセスメントのためのロバストフレームワーク
- Authors: Marko Hostnik, Rauf Kurbanov, Yaroslav Sokolov, Artem Trofimov,
- Abstract要約: 本稿では,自然言語から宣言的視覚化を生成し,検証し,評価するフレームワークであるVegaChatを紹介する。
LLMを起動することなく仕様レベルの類似度を測定する決定論的計量であるSpec Scoreと、ライブラリに依存しない画像ベース計量であるVision Scoreの2つの相補的な指標を提案する。
VegaChatは、無効または空のヴィジュアライゼーションのほぼゼロの速度を達成する一方、Spec ScoreとVision Scoreは、人間の判断と強い相関を示す。
- 参考スコア(独自算出の注目度): 1.8549313085249322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural-language-to-visualization (NL2VIS) systems based on large language models (LLMs) have substantially improved the accessibility of data visualization. However, their further adoption is hindered by two coupled challenges: (i) the absence of standardized evaluation metrics makes it difficult to assess progress in the field and compare different approaches; and (ii) natural language descriptions are inherently underspecified, so multiple visualizations may be valid for the same query. To address these issues, we introduce VegaChat, a framework for generating, validating, and assessing declarative visualizations from natural language. We propose two complementary metrics: Spec Score, a deterministic metric that measures specification-level similarity without invoking an LLM, and Vision Score, a library-agnostic, image-based metric that leverages a multimodal LLM to assess chart similarity and prompt compliance. We evaluate VegaChat on the NLV Corpus and on the annotated subset of ChartLLM. VegaChat achieves near-zero rates of invalid or empty visualizations, while Spec Score and Vision Score exhibit strong correlation with human judgments (Pearson 0.65 and 0.71, respectively), indicating that the proposed metrics support consistent, cross-library comparison. The code and evaluation artifacts are available at https://zenodo.org/records/17062309.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく自然言語・視覚化システム(NL2VIS)は、データ視覚化のアクセシビリティを大幅に改善した。
しかし、彼らのさらなる採用は、2つの組み合わせた課題によって妨げられている。
一 基準評価指標の欠如により、分野の進捗を評価し、異なるアプローチを比較することが困難となること。
(ii) 自然言語の記述は本質的に不特定であるため、同じクエリに対して複数のビジュアライゼーションが有効である可能性がある。
これらの問題に対処するために、自然言語から宣言的視覚化を生成し、検証し、評価するフレームワークであるVegaChatを紹介します。
LLMを呼び出すことなく仕様レベルの類似度を測定する決定論的指標であるSpec Scoreと、マルチモーダルLCMを利用したライブラリに依存しない画像ベースのメトリクスであるVision Scoreの2つを提案する。
我々はNLV CorpusとChartLLMの注釈付きサブセット上でVegaChatを評価する。
VegaChatは、無効または空のヴィジュアライゼーションのほぼゼロの速度を達成する一方、Spec ScoreとVision Scoreは、それぞれPearson 0.65と0.71)と強い相関を示し、提案されたメトリクスが一貫したライブラリ間比較をサポートすることを示す。
コードと評価アーティファクトはhttps://zenodo.org/records/17062309で公開されている。
関連論文リスト
- HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。