Fugu-MT 論文翻訳(概要): De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

論文の概要: De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

arxiv url: http://arxiv.org/abs/2602.20291v1
Date: Mon, 23 Feb 2026 19:16:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.495443
Title: De-rendering, Reasoning, and Repairing Charts with Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いたデレンダリング, 推論, 補修チャート
Authors: Valentin Bonas, Martin Sinnona, Viviana Siless, Emmanuel Iarussi,
Abstract要約: ルールベースの視覚化リンタは違反をフラグ付けするが、コンテキストを見逃し、意味のある設計変更を示唆しない。グラフのデレンダリング、自動分析、反復的な改善を組み合わせて、実用的な、解釈可能なフィードバックを提供するフレームワークを紹介します。
参考スコア（独自算出の注目度）: 2.3332469289621787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data visualizations are central to scientific communication, journalism, and everyday decision-making, yet they are frequently prone to errors that can distort interpretation or mislead audiences. Rule-based visualization linters can flag violations, but they miss context and do not suggest meaningful design changes. Directly querying general-purpose LLMs about visualization quality is unreliable: lacking training to follow visualization design principles, they often produce inconsistent or incorrect feedback. In this work, we introduce a framework that combines chart de-rendering, automated analysis, and iterative improvement to deliver actionable, interpretable feedback on visualization design. Our system reconstructs the structure of a chart from an image, identifies design flaws using vision-language reasoning, and proposes concrete modifications supported by established principles in visualization research. Users can selectively apply these improvements and re-render updated figures, creating a feedback loop that promotes both higher-quality visualizations and the development of visualization literacy. In our evaluation on 1,000 charts from the Chart2Code benchmark, the system generated 10,452 design recommendations, which clustered into 10 coherent categories (e.g., axis formatting, color accessibility, legend consistency). These results highlight the promise of LLM-driven recommendation systems for delivering structured, principle-based feedback on visualization design, opening the door to more intelligent and accessible authoring tools.
Abstract（参考訳）: データビジュアライゼーションは科学コミュニケーション、ジャーナリズム、日々の意思決定の中心であるが、解釈を歪ませたり、聴衆を誤解させるような誤りがしばしば起こる。ルールベースの視覚化リンタは違反をフラグ付けするが、コンテキストを見逃し、意味のある設計変更を示唆しない。視覚化設計原則に従うトレーニングが欠如しているため、不整合性や誤ったフィードバックがしばしば発生する。本研究では, グラフデレンダリング, 自動解析, 反復的改善を組み合わせたフレームワークを導入し, ビジュアライゼーション設計に対する実用的な, 解釈可能なフィードバックを提供する。本システムは,画像からチャートの構造を再構築し,視覚言語推論を用いて設計上の欠陥を識別し,可視化研究の確立した原則に支えられた具体的な修正を提案する。ユーザーはこれらの改善を選択的に適用し、更新された数字を再レンダリングし、高品質な視覚化と視覚化リテラシーの開発を促進するフィードバックループを作成することができる。 Chart2Codeベンチマークによる1000のチャートに対する評価では,10,452個のデザインレコメンデーションが生成され,コヒーレントなカテゴリ(軸フォーマッティング,カラーアクセシビリティ,伝説的一貫性など)にクラスタリングされた。これらの結果は、構造化された原則に基づくビジュアライゼーション設計のフィードバックを提供し、よりインテリジェントでアクセスしやすいオーサリングツールへの扉を開くためのLLM駆動のレコメンデーションシステムの実現を強調している。

関連論文リスト

Do Large Language Models Understand Data Visualization Principles? [2.3332469289621787]
大規模言語モデル (LLM) と視覚言語モデル (VLM) が直接視覚化の原則を推論し、強制できるかどうかは不明だ。我々は、チェックタスクと修正タスクの両方を評価し、モデルの原則違反の検出方法と、欠陥のあるチャート仕様の正しさを評価する。我々の研究は、可視化設計の柔軟なバリデータやエディターとしての大規模(視覚)言語モデルの約束と、視覚知覚のより微妙な側面における象徴的解法との永続的なギャップの両方を強調した。
論文参考訳（メタデータ） (2026-02-23T17:51:06Z)
Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。 VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文参考訳（メタデータ） (2026-02-18T13:40:53Z)
Hierarchical Process Reward Models are Symbolic Vision Learners [56.94353087007494]
記号型コンピュータビジョンは、明示的な論理規則と構造化された表現を通して図を表現し、機械ビジョンの解釈可能な理解を可能にする。これは、ピクセルベースのビジュアルモデルと根本的に異なる学習パラダイムを必要とする。本稿では, インプットダイアグラムをプリミティブにエンコードし, インプットダイアグラムを再構築する自己教師型オートエンコーダを提案する。
論文参考訳（メタデータ） (2025-12-02T18:46:40Z)
The Perils of Chart Deception: How Misleading Visualizations Affect Vision-Language Models [11.500090488046899]
VLM(Vision-Language Models)は、特に専門家でないユーザによって可視化の解釈に使用されるようになっている。本研究では,8種類のミスリードチャートを対象とする10種類のモデルから16,000以上の応答を解析した。本研究は,視覚的誤報に対するVLMの堅牢な保護の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-08-13T11:11:18Z)
ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding [18.67532755744138]
チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
論文参考訳（メタデータ） (2025-05-25T10:21:29Z)
End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文参考訳（メタデータ） (2025-05-15T17:59:39Z)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。