論文の概要: MultiVis-Agent: A Multi-Agent Framework with Logic Rules for Reliable and Comprehensive Cross-Modal Data Visualization
- arxiv url: http://arxiv.org/abs/2601.18320v1
- Date: Mon, 26 Jan 2026 10:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.763641
- Title: MultiVis-Agent: A Multi-Agent Framework with Logic Rules for Reliable and Comprehensive Cross-Modal Data Visualization
- Title(参考訳): MultiVis-Agent: 信頼性と総合的なクロスモーダルデータ可視化のための論理ルールを備えたマルチエージェントフレームワーク
- Authors: Jinwei Lu, Yuanfeng Song, Chen Zhang, Raymond Chi-Wing Wong,
- Abstract要約: MultiVis-Agentは、信頼性の高いマルチモーダルおよびマルチシナリオビジュアライゼーション生成のためのロジックルール強化マルチエージェントフレームワークである。
本手法では,フレキシビリティを維持しつつ,システムの信頼性を数学的に保証する4層論理ルールフレームワークを導入する。
- 参考スコア(独自算出の注目度): 24.51459476329553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world visualization tasks involve complex, multi-modal requirements that extend beyond simple text-to-chart generation, requiring reference images, code examples, and iterative refinement. Current systems exhibit fundamental limitations: single-modality input, one-shot generation, and rigid workflows. While LLM-based approaches show potential for these complex requirements, they introduce reliability challenges including catastrophic failures and infinite loop susceptibility. To address this gap, we propose MultiVis-Agent, a logic rule-enhanced multi-agent framework for reliable multi-modal and multi-scenario visualization generation. Our approach introduces a four-layer logic rule framework that provides mathematical guarantees for system reliability while maintaining flexibility. Unlike traditional rule-based systems, our logic rules are mathematical constraints that guide LLM reasoning rather than replacing it. We formalize the MultiVis task spanning four scenarios from basic generation to iterative refinement, and develop MultiVis-Bench, a benchmark with over 1,000 cases for multi-modal visualization evaluation. Extensive experiments demonstrate that our approach achieves 75.63% visualization score on challenging tasks, significantly outperforming baselines (57.54-62.79%), with task completion rates of 99.58% and code execution success rates of 94.56% (vs. 74.48% and 65.10% without logic rules), successfully addressing both complexity and reliability challenges in automated visualization generation.
- Abstract(参考訳): 実世界の可視化タスクは、単純なテキスト・ツー・チャート生成を超えて、参照画像、コード例、反復的な洗練を必要とする複雑なマルチモーダル要件を含む。
現在のシステムには、単一モダリティ入力、ワンショット生成、厳格なワークフローといった基本的な制限がある。
LLMベースのアプローチはこれらの複雑な要件の可能性を示唆するが、破滅的な失敗や無限ループの感受性を含む信頼性の課題を導入する。
このギャップに対処するため、我々は、信頼性の高いマルチモーダルおよびマルチシナリオ可視化生成のための論理ルール強化マルチエージェントフレームワークであるMultiVis-Agentを提案する。
本手法では,フレキシビリティを維持しつつ,システムの信頼性を数学的に保証する4層論理ルールフレームワークを導入する。
従来のルールベースシステムとは異なり、我々の論理ルールはLLM推論を置き換えるのではなく、数学的制約である。
我々は,基本生成から反復改良までの4つのシナリオにまたがるMultiVisタスクを形式化し,1000件を超えるマルチモーダルビジュアライゼーション評価のベンチマークであるMultiVis-Benchを開発した。
大規模な実験により,本手法は課題の可視化スコアが75.63%に達し,ベースライン(57.54-62.79%),タスク完了率99.58%,コード実行成功率94.56%(vs.74.48%,ロジックルールなし65.10%)を著しく上回り,自動化視覚化生成における複雑性と信頼性の両面での課題に対処することに成功した。
関連論文リスト
- CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning [14.635361844362794]
Smurfsは、DFSDTをモジュール的で、文脈効率が高く、トレーニング不要な設計で強化する新しいマルチエージェントシステムである。
Smurfsは、オープンエンドのStableToolBenchとクローズドエンドのHotpotQAタスクのベースラインメソッドを上回っている。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。