論文の概要: ChartReformer: Natural Language-Driven Chart Image Editing
- arxiv url: http://arxiv.org/abs/2403.00209v2
- Date: Wed, 1 May 2024 06:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 18:05:17.520521
- Title: ChartReformer: Natural Language-Driven Chart Image Editing
- Title(参考訳): ChartReformer: 自然言語駆動のチャートイメージ編集
- Authors: Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann,
- Abstract要約: 提案するChartReformerは自然言語駆動のチャート画像編集ソリューションで,入力画像から直接,所定の命令プロンプトでチャートを編集する。
ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
- 参考スコア(独自算出の注目度): 0.1712670816823812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chart visualizations are essential for data interpretation and communication; however, most charts are only accessible in image format and lack the corresponding data tables and supplementary information, making it difficult to alter their appearance for different application scenarios. To eliminate the need for original underlying data and information to perform chart editing, we propose ChartReformer, a natural language-driven chart image editing solution that directly edits the charts from the input images with the given instruction prompts. The key in this method is that we allow the model to comprehend the chart and reason over the prompt to generate the corresponding underlying data table and visual attributes for new charts, enabling precise edits. Additionally, to generalize ChartReformer, we define and standardize various types of chart editing, covering style, layout, format, and data-centric edits. The experiments show promising results for the natural language-driven chart image editing.
- Abstract(参考訳): チャートの視覚化は、データの解釈と通信には不可欠であるが、ほとんどのチャートは画像形式でのみアクセス可能であり、対応するデータテーブルと補足情報がないため、異なるアプリケーションシナリオでその外観を変更することは困難である。
そこで本研究では,入力画像からチャートを直接編集する自然言語駆動のチャート画像編集ソリューションであるChartReformerを提案する。
この手法の鍵となるのは、モデルがチャートを理解でき、プロンプトを判断して対応するデータテーブルと新しいチャートの視覚属性を生成し、正確な編集を可能にすることである。
さらに、ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
実験の結果,自然言語によるチャート画像編集に有望な結果が得られた。
関連論文リスト
- PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents [47.79080056618323]
PlotEditは、自然言語によるエンドツーエンドのチャート画像編集のための新しいマルチエージェントフレームワークである。
PlotEditは、データテーブル抽出用のChart2Table、スタイル識別用のChart2Vision、レンダリングコードを取得するChart2Code、ユーザリクエストを実行可能なステップに解析するInstruction Decomposition Agent、ニュアンスチャートコンポーネント修正を実装するMultimodal Editing Agentの5つのLLMエージェントをオーケストレーションする。
PlotEditは、スタイル、レイアウト、フォーマット、データ中心の編集で、ChartCraftデータセットの既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-01-20T02:31:52Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartCheck: Explainable Fact-Checking over Real-World Chart Images [11.172722085164281]
ChartCheckは、実世界のグラフに対する説明可能な事実チェックのための、新しい大規模データセットである。
視覚言語モデルとチャート・ツー・テーブルモデルを用いてChartCheckを体系的に評価し,コミュニティにベースラインを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:35:29Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。