論文の概要: ChartReformer: Natural Language-Driven Chart Image Editing
- arxiv url: http://arxiv.org/abs/2403.00209v1
- Date: Fri, 1 Mar 2024 00:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:34:43.254623
- Title: ChartReformer: Natural Language-Driven Chart Image Editing
- Title(参考訳): ChartReformer: 自然言語駆動のチャートイメージ編集
- Authors: Pengyu Yan, Mahesh Bhosale, Jay Lal, Bikhyat Adhikari, David Doermann
- Abstract要約: 提案するChartReformerは自然言語駆動のチャート画像編集ソリューションで,入力画像から直接,所定の命令プロンプトでチャートを編集する。
ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
- 参考スコア(独自算出の注目度): 0.18374319565577155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chart visualizations are essential for data interpretation and communication;
however, most charts are only accessible in image format and lack the
corresponding data tables and supplementary information, making it difficult to
alter their appearance for different application scenarios. To eliminate the
need for original underlying data and information to perform chart editing, we
propose ChartReformer, a natural language-driven chart image editing solution
that directly edits the charts from the input images with the given instruction
prompts. The key in this method is that we allow the model to comprehend the
chart and reason over the prompt to generate the corresponding underlying data
table and visual attributes for new charts, enabling precise edits.
Additionally, to generalize ChartReformer, we define and standardize various
types of chart editing, covering style, layout, format, and data-centric edits.
The experiments show promising results for the natural language-driven chart
image editing.
- Abstract(参考訳): チャートの可視化はデータ解釈と通信に不可欠であるが、ほとんどのチャートは画像フォーマットでのみアクセス可能であり、対応するデータテーブルと補足情報がないため、異なるアプリケーションシナリオでその外観を変更することは困難である。
そこで本研究では,入力画像からチャートを直接編集する自然言語駆動のチャート画像編集ソリューションであるChartReformerを提案する。
この手法の鍵となるのは、モデルがチャートを理解でき、プロンプトを判断して対応するデータテーブルと新しいチャートの視覚属性を生成し、正確な編集を可能にすることである。
さらに、ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
この実験は自然言語によるチャート画像編集に有望な結果をもたらす。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - ChartCheck: Explainable Fact-Checking over Real-World Chart Images [11.172722085164281]
ChartCheckは、実世界のグラフに対する説明可能な事実チェックのための、新しい大規模データセットである。
視覚言語モデルとチャート・ツー・テーブルモデルを用いてChartCheckを体系的に評価し,コミュニティにベースラインを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:35:29Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。