Fugu-MT 論文翻訳(概要): Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

論文の概要: Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

arxiv url: http://arxiv.org/abs/2506.02454v1
Date: Tue, 03 Jun 2025 05:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.290728
Title: Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
Title（参考訳）: マルチモーダルDeepResearcher: エージェントフレームワークによるスクラッチからテキストチャートインターリーブドレポートを生成する
Authors: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen,
Abstract要約: マルチモーダルDeepResearcherは、タスクを調査、文書化、計画、マルチモーダルレポート生成という4つの段階に分解する。ベースライン方式よりも82%の総合的な勝利率を達成する。
参考スコア（独自算出の注目度）: 22.366142327629486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visualizations play a crucial part in effective communication of concepts and information. Recent advances in reasoning and retrieval augmented generation have enabled Large Language Models (LLMs) to perform deep research and generate comprehensive reports. Despite its progress, existing deep research frameworks primarily focus on generating text-only content, leaving the automated generation of interleaved texts and visualizations underexplored. This novel task poses key challenges in designing informative visualizations and effectively integrating them with text reports. To address these challenges, we propose Formal Description of Visualization (FDV), a structured textual representation of charts that enables LLMs to learn from and generate diverse, high-quality visualizations. Building on this representation, we introduce Multimodal DeepResearcher, an agentic framework that decomposes the task into four stages: (1) researching, (2) exemplar report textualization, (3) planning, and (4) multimodal report generation. For the evaluation of generated multimodal reports, we develop MultimodalReportBench, which contains 100 diverse topics served as inputs along with 5 dedicated metrics. Extensive experiments across models and evaluation methods demonstrate the effectiveness of Multimodal DeepResearcher. Notably, utilizing the same Claude 3.7 Sonnet model, Multimodal DeepResearcher achieves an 82\% overall win rate over the baseline method.
Abstract（参考訳）: 可視化は概念や情報の効果的なコミュニケーションにおいて重要な役割を果たす。近年の推論と検索の強化により,Large Language Models (LLMs) が深く研究し,総合的なレポートを作成できるようになった。その進歩にもかかわらず、既存のディープリサーチフレームワークは主にテキストのみのコンテンツを生成し、インターリーブされたテキストと視覚化の自動生成を過小評価している。この新しいタスクは、情報可視化を設計し、テキストレポートと効果的に統合する上で重要な課題となる。これらの課題に対処するために、LLMが多種多様な高品質な可視化から学習し、生成することを可能にする、チャートの構造化されたテキスト表現であるFDV(Formal Description of Visualization)を提案する。この表現に基づいて,タスクを4段階に分解するエージェントフレームワークであるMultimodal DeepResearcherを紹介した。生成したマルチモーダルレポートの評価のために,5つの専用指標とともに入力として提供される100の多様なトピックを含むMultimodalReportBenchを開発した。モデルおよび評価手法の広範な実験により,マルチモーダルディープリサーチの有効性が示された。特に、同じClaude 3.7 Sonnetモデルを利用することで、Multimodal DeepResearcherはベースライン法よりも82倍の勝利率を達成する。

関連論文リスト

A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文参考訳（メタデータ） (2025-05-01T02:40:30Z)
Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets [2.6966823536477436]
本研究では,BART,FLAN-T5,LLaMA-3-8B,Gemma-7Bの4大言語モデルについて,徹底的に評価する。評価はROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEORなどの広く知られている自動測定値を用いて、一貫性のある情報的な要約を生成する際のモデルの能力を評価する。
論文参考訳（メタデータ） (2025-02-26T17:32:07Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。我々は,コーパス内のマルチモーダルデータを完全に活用して,テキストと画像を組み合わせたマルチモーダルな回答を生成することを目指している。厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んでいる。
論文参考訳（メタデータ） (2025-02-06T16:07:24Z)
Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-23T10:11:56Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。