Fugu-MT 論文翻訳(概要): ChartReformer: Natural Language-Driven Chart Image Editing

論文の概要: ChartReformer: Natural Language-Driven Chart Image Editing

arxiv url: http://arxiv.org/abs/2403.00209v2
Date: Wed, 1 May 2024 06:14:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 18:05:17.520521
Title: ChartReformer: Natural Language-Driven Chart Image Editing
Title（参考訳）: ChartReformer: 自然言語駆動のチャートイメージ編集
Authors: Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann,
Abstract要約: 提案するChartReformerは自然言語駆動のチャート画像編集ソリューションで,入力画像から直接,所定の命令プロンプトでチャートを編集する。 ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
参考スコア（独自算出の注目度）: 0.1712670816823812
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chart visualizations are essential for data interpretation and communication; however, most charts are only accessible in image format and lack the corresponding data tables and supplementary information, making it difficult to alter their appearance for different application scenarios. To eliminate the need for original underlying data and information to perform chart editing, we propose ChartReformer, a natural language-driven chart image editing solution that directly edits the charts from the input images with the given instruction prompts. The key in this method is that we allow the model to comprehend the chart and reason over the prompt to generate the corresponding underlying data table and visual attributes for new charts, enabling precise edits. Additionally, to generalize ChartReformer, we define and standardize various types of chart editing, covering style, layout, format, and data-centric edits. The experiments show promising results for the natural language-driven chart image editing.
Abstract（参考訳）: チャートの視覚化は、データの解釈と通信には不可欠であるが、ほとんどのチャートは画像形式でのみアクセス可能であり、対応するデータテーブルと補足情報がないため、異なるアプリケーションシナリオでその外観を変更することは困難である。そこで本研究では,入力画像からチャートを直接編集する自然言語駆動のチャート画像編集ソリューションであるChartReformerを提案する。この手法の鍵となるのは、モデルがチャートを理解でき、プロンプトを判断して対応するデータテーブルと新しいチャートの視覚属性を生成し、正確な編集を可能にすることである。さらに、ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。実験の結果,自然言語によるチャート画像編集に有望な結果が得られた。

関連論文リスト

Charts Are Not Images: On the Challenges of Scientific Chart Editing [66.38730113476677]
textitFigEditは、3万以上のサンプルからなる科学的フィギュア編集のベンチマークである。私たちのベンチマークでは、ピクセルレベルの操作の重大な制限が示されています。 textitFigEdit をリリースすることにより,構造対応図形編集の体系的な進歩の実現を目指す。
論文参考訳（メタデータ） (2025-11-30T06:13:48Z)
ChartEditor: A Reinforcement Learning Framework for Robust Chart Editing [46.847377471580366]
私たちは、31のチャートカテゴリにまたがる7,964のサンプルからなる総合的なベンチマークであるChartEditVistaを紹介します。 ChartEditVistaのインプットには、オリジナルのチャートコードなしで、オリジナルのチャートイメージと自然言語編集命令のみが含まれている。また、コード実行可能性と視覚的忠実性を同時に実施するために、新しいレンダリング報酬を含む強化学習フレームワークを使用してトレーニングされたモデルであるChartEditorも提示する。
論文参考訳（メタデータ） (2025-11-19T09:27:37Z)
ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文参考訳（メタデータ） (2025-05-25T23:17:32Z)
ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation [16.452660608535002]
インフォグラフィックチャートの理解を促進するために設計された100万規模のデータセットであるChartGalaxyを紹介する。データセットは、実際のインフォグラフィックチャートから75のチャートタイプ、330のチャートバリエーション、68のテンプレートを識別するインダクティブプロセスによって構築される。 1)微調整によるインフォグラフィックチャート理解の改善,2)インフォグラフィックチャートのベンチマークコード生成,3)インフォグラフィックチャート生成の実現。
論文参考訳（メタデータ） (2025-05-24T12:06:22Z)
PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents [47.79080056618323]
PlotEditは、自然言語によるエンドツーエンドのチャート画像編集のための新しいマルチエージェントフレームワークである。 PlotEditは、データテーブル抽出用のChart2Table、スタイル識別用のChart2Vision、レンダリングコードを取得するChart2Code、ユーザリクエストを実行可能なステップに解析するInstruction Decomposition Agent、ニュアンスチャートコンポーネント修正を実装するMultimodal Editing Agentの5つのLLMエージェントをオーケストレーションする。 PlotEditは、スタイル、レイアウト、フォーマット、データ中心の編集で、ChartCraftデータセットの既存のベースラインを上回っている。
論文参考訳（メタデータ） (2025-01-20T02:31:52Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2024-07-04T22:16:40Z)
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文参考訳（メタデータ） (2024-01-04T17:51:48Z)
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文参考訳（メタデータ） (2023-12-15T19:16:21Z)
ChartCheck: Explainable Fact-Checking over Real-World Chart Images [11.172722085164281]
ChartCheckは、実世界のグラフに対する説明可能な事実チェックのための、新しい大規模データセットである。視覚言語モデルとチャート・ツー・テーブルモデルを用いてChartCheckを体系的に評価し,コミュニティにベースラインを提案する。
論文参考訳（メタデータ） (2023-11-13T16:35:29Z)
StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文参考訳（メタデータ） (2023-09-20T12:51:13Z)
UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。 UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。 i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文参考訳（メタデータ） (2023-05-24T06:11:17Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。データセット構築プロセスを説明し、データセットを解析する。
論文参考訳（メタデータ） (2022-03-12T17:01:38Z)
Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文参考訳（メタデータ） (2020-08-15T04:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。