論文の概要: VisPath: Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization
- arxiv url: http://arxiv.org/abs/2502.11140v1
- Date: Sun, 16 Feb 2025 14:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:27.039827
- Title: VisPath: Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization
- Title(参考訳): VisPath: マルチパス推論とフィードバック駆動最適化による自動可視化コード合成
- Authors: Wonduk Seo, Seungyong Lee, Daye Kang, Zonghao Yuan, Seunghyun Lee,
- Abstract要約: VisPathは、不特定クエリを処理するために特別に設計されたマルチステージフレームワークである。
最初は初期クエリを使用して、Chain-of-Thought(CoT)プロンプトを通じて、さまざまな変更クエリを生成する。
洗練されたクエリは、候補の視覚化スクリプトを生成するために使用され、複数のイメージを生成するために実行される。
- 参考スコア(独自算出の注目度): 13.964412839566293
- License:
- Abstract: Unprecedented breakthroughs in Large Language Models (LLMs) has amplified its penetration into application of automated visualization code generation. Few-shot prompting and query expansion techniques have notably enhanced data visualization performance, however, still fail to overcome ambiguity and complexity of natural language queries - imposing an inherent burden for manual human intervention. To mitigate such limitations, we propose a holistic framework VisPath : A Multi-Path Reasoning and Feedback-Driven Optimization Framework for Visualization Code Generation, which systematically enhances code quality through structured reasoning and refinement. VisPath is a multi-stage framework, specially designed to handle underspecified queries. To generate a robust final visualization code, it first utilizes initial query to generate diverse reformulated queries via Chain-of-Thought (CoT) prompting, each representing a distinct reasoning path. Refined queries are used to produce candidate visualization scripts, consequently executed to generate multiple images. Comprehensively assessing correctness and quality of outputs, VisPath generates feedback for each image, which are then fed to aggregation module to generate optimal result. Extensive experiments on benchmarks including MatPlotBench and the Qwen-Agent Code Interpreter Benchmark show that VisPath significantly outperforms state-of-the-art (SOTA) methods, increased up to average 17%, offering a more reliable solution for AI-driven visualization code generation.
- Abstract(参考訳): LLM(Large Language Models)の先進的なブレークスルーは、自動視覚化コード生成の応用への浸透を増幅した。
プロンプトとクエリ拡張のテクニックは、データ視覚化のパフォーマンスを著しく向上させたが、自然言語クエリのあいまいさと複雑さを克服することはできなかった。
このような制限を緩和するために、構造化された推論と洗練を通じてコード品質を体系的に向上する多パス推論および可視化コード生成のためのフィードバック駆動最適化フレームワークVisPathを提案する。
VisPathはマルチステージフレームワークで、不特定クエリを扱うように設計されている。
堅牢な最終ビジュアライゼーションコードを生成するために、最初は初期クエリを使用して、Chain-of-Thought(CoT)プロンプトを通じて、それぞれが明確な推論パスを表す、さまざまな変更クエリを生成する。
精製されたクエリは、候補の視覚化スクリプトを生成するために使用され、結果として複数のイメージを生成するために実行される。
VisPathは、アウトプットの正確さと品質を総合的に評価し、各イメージに対するフィードバックを生成し、アグリゲーションモジュールに送って最適な結果を生成する。
MatPlotBenchやQwen-Agent Code Interpreter Benchmarkといったベンチマークに関する大規模な実験によると、VisPathは最先端(SOTA)メソッドを大幅に上回り、平均17%まで上昇し、AI駆動の視覚化コード生成のための信頼性の高いソリューションを提供する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Genetic Programming for Evolving a Front of Interpretable Models for
Data Visualisation [4.4181317696554325]
GPtSNEという遺伝的プログラミング手法を用いて,データセットから高品質な可視化へ解釈可能なマッピングを進化させる手法を提案する。
多目的アプローチは、視覚的品質とモデルの複雑さの間に異なるトレードオフをもたらす、単一の実行で様々な可視化を生成するように設計されている。
論文 参考訳(メタデータ) (2020-01-27T04:03:19Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。