論文の概要: PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents
- arxiv url: http://arxiv.org/abs/2501.11233v1
- Date: Mon, 20 Jan 2025 02:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:41.451351
- Title: PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents
- Title(参考訳): PlotEdit: PDFで自然言語駆動アクセシブルチャートを編集するマルチモーダルLLMエージェント
- Authors: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt,
- Abstract要約: PlotEditは、自然言語によるエンドツーエンドのチャート画像編集のための新しいマルチエージェントフレームワークである。
PlotEditは、データテーブル抽出用のChart2Table、スタイル識別用のChart2Vision、レンダリングコードを取得するChart2Code、ユーザリクエストを実行可能なステップに解析するInstruction Decomposition Agent、ニュアンスチャートコンポーネント修正を実装するMultimodal Editing Agentの5つのLLMエージェントをオーケストレーションする。
PlotEditは、スタイル、レイアウト、フォーマット、データ中心の編集で、ChartCraftデータセットの既存のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 47.79080056618323
- License:
- Abstract: Chart visualizations, while essential for data interpretation and communication, are predominantly accessible only as images in PDFs, lacking source data tables and stylistic information. To enable effective editing of charts in PDFs or digital scans, we present PlotEdit, a novel multi-agent framework for natural language-driven end-to-end chart image editing via self-reflective LLM agents. PlotEdit orchestrates five LLM agents: (1) Chart2Table for data table extraction, (2) Chart2Vision for style attribute identification, (3) Chart2Code for retrieving rendering code, (4) Instruction Decomposition Agent for parsing user requests into executable steps, and (5) Multimodal Editing Agent for implementing nuanced chart component modifications - all coordinated through multimodal feedback to maintain visual fidelity. PlotEdit outperforms existing baselines on the ChartCraft dataset across style, layout, format, and data-centric edits, enhancing accessibility for visually challenged users and improving novice productivity.
- Abstract(参考訳): データ解釈と通信に不可欠なチャートの視覚化は、PDFのイメージとしてのみアクセス可能であり、ソースデータテーブルやスタイリスティックな情報が欠如している。
PDFやデジタルスキャンにおけるチャートの効率的な編集を可能にするために,自然言語駆動型エンドツーエンドのチャート画像編集のための新しいマルチエージェントフレームワークであるPlotEditを提案する。
PlotEditは、(1)データテーブル抽出のためのChart2Table、(2)スタイル属性識別のためのChart2Vision、(3)レンダリングコードを取得するChart2Code、(4)ユーザリクエストを実行可能なステップにパースするためのインストラクション分解エージェント、(5) ニュアンスチャートコンポーネント修正を実装するためのマルチモーダル編集エージェント。
PlotEditは、スタイル、レイアウト、フォーマット、データ中心の編集でChartCraftデータセットの既存のベースラインを上回り、視覚障害者のアクセシビリティを高め、初心者生産性を向上させる。
関連論文リスト
- Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs [20.690529354141116]
チャート解析の分野での進歩を活用して,触覚チャートをエンドツーエンドに生成する。
筆者らの3つの重要な貢献は,(1)チャート画像を触覚アクセス可能なSVGに変換するために訓練されたChartFormerモデル,(2)Chart2Tactileデータセット上でこのモデルをトレーニングし,(3)リフレッシュ可能な2次元触覚ディスプレイを用いたパイロットユーザによるSVGの有効性を評価することである。
論文 参考訳(メタデータ) (2024-05-29T14:24:42Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - ChartReformer: Natural Language-Driven Chart Image Editing [0.1712670816823812]
提案するChartReformerは自然言語駆動のチャート画像編集ソリューションで,入力画像から直接,所定の命令プロンプトでチャートを編集する。
ChartReformerを一般化するために、様々な種類のチャート編集、スタイル、レイアウト、フォーマット、データ中心の編集を定義し、標準化する。
論文 参考訳(メタデータ) (2024-03-01T00:59:50Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - GenPlot: Increasing the Scale and Diversity of Chart Derendering Data [0.0]
我々は、合成データを用いて、チャートデレンダリングのための何十億ものプロットを生成するプロットジェネレータであるGenPlotを提案する。
OCR-free chart-to-text translation は視覚言語タスクの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-20T17:25:53Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。