論文の概要: Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
- arxiv url: http://arxiv.org/abs/2506.02454v1
- Date: Tue, 03 Jun 2025 05:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.290728
- Title: Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
- Title(参考訳): マルチモーダルDeepResearcher: エージェントフレームワークによるスクラッチからテキストチャートインターリーブドレポートを生成する
- Authors: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen,
- Abstract要約: マルチモーダルDeepResearcherは、タスクを調査、文書化、計画、マルチモーダルレポート生成という4つの段階に分解する。
ベースライン方式よりも82%の総合的な勝利率を達成する。
- 参考スコア(独自算出の注目度): 22.366142327629486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visualizations play a crucial part in effective communication of concepts and information. Recent advances in reasoning and retrieval augmented generation have enabled Large Language Models (LLMs) to perform deep research and generate comprehensive reports. Despite its progress, existing deep research frameworks primarily focus on generating text-only content, leaving the automated generation of interleaved texts and visualizations underexplored. This novel task poses key challenges in designing informative visualizations and effectively integrating them with text reports. To address these challenges, we propose Formal Description of Visualization (FDV), a structured textual representation of charts that enables LLMs to learn from and generate diverse, high-quality visualizations. Building on this representation, we introduce Multimodal DeepResearcher, an agentic framework that decomposes the task into four stages: (1) researching, (2) exemplar report textualization, (3) planning, and (4) multimodal report generation. For the evaluation of generated multimodal reports, we develop MultimodalReportBench, which contains 100 diverse topics served as inputs along with 5 dedicated metrics. Extensive experiments across models and evaluation methods demonstrate the effectiveness of Multimodal DeepResearcher. Notably, utilizing the same Claude 3.7 Sonnet model, Multimodal DeepResearcher achieves an 82\% overall win rate over the baseline method.
- Abstract(参考訳): 可視化は概念や情報の効果的なコミュニケーションにおいて重要な役割を果たす。
近年の推論と検索の強化により,Large Language Models (LLMs) が深く研究し,総合的なレポートを作成できるようになった。
その進歩にもかかわらず、既存のディープリサーチフレームワークは主にテキストのみのコンテンツを生成し、インターリーブされたテキストと視覚化の自動生成を過小評価している。
この新しいタスクは、情報可視化を設計し、テキストレポートと効果的に統合する上で重要な課題となる。
これらの課題に対処するために、LLMが多種多様な高品質な可視化から学習し、生成することを可能にする、チャートの構造化されたテキスト表現であるFDV(Formal Description of Visualization)を提案する。
この表現に基づいて,タスクを4段階に分解するエージェントフレームワークであるMultimodal DeepResearcherを紹介した。
生成したマルチモーダルレポートの評価のために,5つの専用指標とともに入力として提供される100の多様なトピックを含むMultimodalReportBenchを開発した。
モデルおよび評価手法の広範な実験により,マルチモーダルディープリサーチの有効性が示された。
特に、同じClaude 3.7 Sonnetモデルを利用することで、Multimodal DeepResearcherはベースライン法よりも82倍の勝利率を達成する。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets [2.6966823536477436]
本研究では,BART,FLAN-T5,LLaMA-3-8B,Gemma-7Bの4大言語モデルについて,徹底的に評価する。
評価はROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEORなどの広く知られている自動測定値を用いて、一貫性のある情報的な要約を生成する際のモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T17:32:07Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。