論文の概要: Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization
- arxiv url: http://arxiv.org/abs/2502.11140v2
- Date: Wed, 21 May 2025 02:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.601176
- Title: Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization
- Title(参考訳): マルチパス推論とフィードバック駆動最適化によるコードの自動可視化
- Authors: Wonduk Seo, Seungyong Lee, Daye Kang, Hyunjin An, Zonghao Yuan, Seunghyun Lee,
- Abstract要約: VisPathは構造化されたマルチステージ処理を通じて、不特定クエリを処理する。
最初はChain-of-Thoughtプロンプトを通じてユーザ入力をリフォームする。
VisPathは、最適な最終結果を合成するために集約されたターゲットフィードバックを生成する。
- 参考スコア(独自算出の注目度): 13.178750787401263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rapid advancements in Large Language Models (LLMs) have accelerated their integration into automated visualization code generation applications. Despite advancements through few-shot prompting and query expansion, existing methods remain limited in handling ambiguous and complex queries, thereby requiring manual intervention. To overcome these limitations, we propose VisPath: a Multi-Path Reasoning and Feedback-Driven Optimization Framework for Visualization Code Generation. VisPath handles underspecified queries through structured, multi-stage processing. It begins by reformulating the user input via Chain-of-Thought (CoT) prompting, which refers to the initial query while generating multiple extended queries in parallel, enabling the LLM to capture diverse interpretations of the user intent. These queries then generate candidate visualization scripts, which are executed to produce diverse images. By assessing the visual quality and correctness of each output, VisPath generates targeted feedback that is aggregated to synthesize an optimal final result. Extensive experiments on widely-used benchmarks including MatPlotBench and the Qwen-Agent Code Interpreter Benchmark show that VisPath outperforms state-of-the-art methods, offering a more reliable solution for AI-driven visualization code generation.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、自動化された視覚化コード生成アプリケーションへの統合が加速した。
数発のプロンプトとクエリ拡張による進歩にもかかわらず、既存のメソッドはあいまいで複雑なクエリを扱う場合に限られており、手動で介入する必要がある。
これらの制限を克服するために、ビジュアライゼーションコード生成のためのマルチパス推論とフィードバック駆動最適化フレームワークVisPathを提案する。
VisPathは構造化されたマルチステージ処理を通じて、不特定クエリを処理する。
最初はChain-of-Thought (CoT)プロンプトを通じてユーザ入力を再構成し、これは複数の拡張クエリを並列に生成しながら初期クエリを参照することで、LCMはユーザ意図の多様な解釈をキャプチャできる。
これらのクエリは候補ビジュアライゼーションスクリプトを生成し、さまざまなイメージを生成するために実行される。
それぞれの出力の視覚的品質と正確性を評価することで、VisPathは最適な最終結果を合成するために集約されたターゲットフィードバックを生成する。
MatPlotBenchやQwen-Agent Code Interpreter Benchmarkなど、広く使用されているベンチマークに関する広範な実験によると、VisPathは最先端のメソッドよりも優れており、AI駆動の視覚化コード生成のための信頼性の高いソリューションを提供する。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。