論文の概要: Charts Are Not Images: On the Challenges of Scientific Chart Editing
- arxiv url: http://arxiv.org/abs/2512.00752v1
- Date: Sun, 30 Nov 2025 06:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.399449
- Title: Charts Are Not Images: On the Challenges of Scientific Chart Editing
- Title(参考訳): グラフは画像ではない:科学チャート編集の課題について
- Authors: Shawn Li, Ryan Rossi, Sungchul Kim, Sunav Choudhary, Franck Dernoncourt, Puneet Mathur, Zhengzhong Tu, Yue Zhao,
- Abstract要約: textitFigEditは、3万以上のサンプルからなる科学的フィギュア編集のベンチマークである。
私たちのベンチマークでは、ピクセルレベルの操作の重大な制限が示されています。
textitFigEdit をリリースすることにより,構造対応図形編集の体系的な進歩の実現を目指す。
- 参考スコア(独自算出の注目度): 66.38730113476677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models, such as diffusion and autoregressive approaches, have demonstrated impressive capabilities in editing natural images. However, applying these tools to scientific charts rests on a flawed assumption: a chart is not merely an arrangement of pixels but a visual representation of structured data governed by a graphical grammar. Consequently, chart editing is not a pixel-manipulation task but a structured transformation problem. To address this fundamental mismatch, we introduce \textit{FigEdit}, a large-scale benchmark for scientific figure editing comprising over 30,000 samples. Grounded in real-world data, our benchmark is distinguished by its diversity, covering 10 distinct chart types and a rich vocabulary of complex editing instructions. The benchmark is organized into five distinct and progressively challenging tasks: single edits, multi edits, conversational edits, visual-guidance-based edits, and style transfer. Our evaluation of a range of state-of-the-art models on this benchmark reveals their poor performance on scientific figures, as they consistently fail to handle the underlying structured transformations required for valid edits. Furthermore, our analysis indicates that traditional evaluation metrics (e.g., SSIM, PSNR) have limitations in capturing the semantic correctness of chart edits. Our benchmark demonstrates the profound limitations of pixel-level manipulation and provides a robust foundation for developing and evaluating future structure-aware models. By releasing \textit{FigEdit} (https://github.com/adobe-research/figure-editing), we aim to enable systematic progress in structure-aware figure editing, provide a common ground for fair comparison, and encourage future research on models that understand both the visual and semantic layers of scientific charts.
- Abstract(参考訳): 拡散や自己回帰的アプローチのような生成モデルは、自然画像の編集に優れた能力を誇示している。
グラフは単にピクセルの配列ではなく、グラフィカル文法によって管理される構造化データの視覚的表現である。
したがって、チャート編集はピクセル操作タスクではなく、構造化変換問題である。
この基本的なミスマッチに対処するために,3万以上のサンプルからなる科学的図形編集のための大規模ベンチマークである \textit{FigEdit} を導入する。
実世界のデータに基づいて、我々のベンチマークは10種類の異なるチャートタイプと複雑な編集命令の豊富な語彙を網羅し、その多様性で区別されている。
ベンチマークは、シングル編集、マルチ編集、会話編集、ビジュアルガイダンスベースの編集、スタイル転送の5つに分かれている。
このベンチマークにおける最先端モデルの評価は、有効な編集に必要な基盤となる構造化変換の処理に一貫して失敗するため、科学的数値においてその性能が劣っていることを示している。
さらに,従来の評価指標(例えば,SSIM,PSNR)は,チャート編集のセマンティックな正確性に限界があることを示す。
本ベンチマークでは,画素レベルの操作の大幅な制限を実証し,将来的な構造認識モデルの開発と評価のための堅牢な基盤を提供する。
構造対応図形編集の体系的な進歩を実現し、公正比較のための共通基盤を提供し、科学チャートの視覚層と意味層の両方を理解するモデルに関する将来の研究を促進することを目的としている。
関連論文リスト
- ChartEditor: A Reinforcement Learning Framework for Robust Chart Editing [46.847377471580366]
私たちは、31のチャートカテゴリにまたがる7,964のサンプルからなる総合的なベンチマークであるChartEditVistaを紹介します。
ChartEditVistaのインプットには、オリジナルのチャートコードなしで、オリジナルのチャートイメージと自然言語編集命令のみが含まれている。
また、コード実行可能性と視覚的忠実性を同時に実施するために、新しいレンダリング報酬を含む強化学習フレームワークを使用してトレーニングされたモデルであるChartEditorも提示する。
論文 参考訳(メタデータ) (2025-11-19T09:27:37Z) - SpotEdit: Evaluating Visually-Guided Image Editing Methods [3.5066378196008636]
SpotEditは、視覚的に誘導された画像編集方法を評価するために設計された包括的なベンチマークである。
我々のベンチマークには幻覚の専用コンポーネントが含まれており、GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行するかを強調している。
論文 参考訳(メタデータ) (2025-08-25T16:08:57Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。