論文の概要: ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2602.15758v1
- Date: Tue, 17 Feb 2026 17:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.146198
- Title: ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models
- Title(参考訳): ChartEditBench: マルチモーダル言語モデルにおける接地型マルチトゥルグラフの編集評価
- Authors: Manav Nitin Kapadnis, Lawanya Baghel, Atharva Naik, Carolyn Rosé,
- Abstract要約: ChartEditBenchは、コードによるインクリメンタルで視覚的なグラフ編集のためのベンチマークです。
以前のワンショットベンチマークとは異なり、ChartEditBenchは持続的でコンテキスト対応の編集を評価する。
最先端のMLLMを用いた実験では、エラーの蓄積と共有コンテキストの分解により、マルチターン設定が大幅に劣化することが示された。
- 参考スコア(独自算出の注目度): 4.257440824082894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) perform strongly on single-turn chart generation, their ability to support real-world exploratory data analysis remains underexplored. In practice, users iteratively refine visualizations through multi-turn interactions that require maintaining common ground, tracking prior edits, and adapting to evolving preferences. We introduce ChartEditBench, a benchmark for incremental, visually grounded chart editing via code, comprising 5,000 difficulty-controlled modification chains and a rigorously human-verified subset. Unlike prior one-shot benchmarks, ChartEditBench evaluates sustained, context-aware editing. We further propose a robust evaluation framework that mitigates limitations of LLM-as-a-Judge metrics by integrating execution-based fidelity checks, pixel-level visual similarity, and logical code verification. Experiments with state-of-the-art MLLMs reveal substantial degradation in multi-turn settings due to error accumulation and breakdowns in shared context, with strong performance on stylistic edits but frequent execution failures on data-centric transformations. ChartEditBench, establishes a challenging testbed for grounded, intent-aware multimodal programming.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はシングルターンチャート生成に強く貢献するが,実世界の探索データ解析を支援する能力はいまだ未定である。
実際には、ユーザは、共通グラウンドの維持、編集前の追跡、進化する好みへの適応を必要とするマルチターンインタラクションを通じて、視覚化を反復的に洗練する。
ChartEditBenchは、5000の難易度制御された修正チェーンと、厳格に人間を検証したサブセットからなる、インクリメンタルで視覚的にグラデーションされたチャート編集のためのベンチマークである。
以前のワンショットベンチマークとは異なり、ChartEditBenchは持続的でコンテキスト対応の編集を評価する。
さらに,LLM-as-a-Judgeメトリクスの制限を緩和し,実行ベースの忠実度チェック,ピクセルレベルの視覚的類似性,論理的コード検証を統合することにより,ロバストな評価フレームワークを提案する。
最先端のMLLMを用いた実験では、スタイリスティックな編集では高い性能を示すが、データ中心の変換では頻繁な実行障害があるため、エラーの蓄積や共有コンテキストでの分解によるマルチターン設定の大幅な低下が示されている。
ChartEditBenchは、目的を意識したマルチモーダルプログラミングのための挑戦的なテストベッドを確立する。
関連論文リスト
- ChartE$^{3}$: A Comprehensive Benchmark for End-to-End Chart Editing [64.65742943745866]
ChartE$3$はEnd-to-End Chart Editingベンチマークである。
中間的な自然言語プログラムやコードレベルの監視に頼ることなく、モデルを直接評価する。
1200以上の高品質なサンプルが、十分に設計されたデータパイプラインを通じて構築されている。
論文 参考訳(メタデータ) (2026-01-29T13:29:27Z) - ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions [65.21061221740388]
本稿では,ユーザ意図を自然言語と視覚指標の組み合わせで表現する,マルチモーダルチャート編集のための新しいパラダイムを提案する。
マルチモードチャート編集のための新しいベンチマークであるChart$textM3$を,マルチレベル複雑度とマルチパースペクティブ評価で提示する。
論文 参考訳(メタデータ) (2025-07-25T13:30:14Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - ChartEdit: How Far Are MLLMs From Automating Chart Analysis? Evaluating MLLMs' Capability via Chart Editing [6.671042213908933]
マルチモーダルな大言語モデル(MLLM)は、チャートレンダリングコードを生成する際の約束を示すが、コードによるチャートの編集はより難しい課題である。
グラフ編集タスク用に設計された新しいベンチマークであるtextscChartEditを提案する。
コードレベルとチャートレベルの2種類の実験で10種類のMLLMの性能を評価した。
論文 参考訳(メタデータ) (2025-05-17T09:47:15Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。