論文の概要: Multi-Agent Synergy-Driven Iterative Visual Narrative Synthesis
- arxiv url: http://arxiv.org/abs/2507.13285v1
- Date: Thu, 17 Jul 2025 16:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.579906
- Title: Multi-Agent Synergy-Driven Iterative Visual Narrative Synthesis
- Title(参考訳): マルチエージェント・シナジー駆動型反復視覚ナラティブ合成
- Authors: Wang Xi, Quan Shi, Tian Yu, Yujie Peng, Jiayi Sun, Mengxing Ren, Zenghui Ding, Ningguang Yao,
- Abstract要約: 高品質なメディアプレゼンテーションを自動生成するための新しいフレームワークRCPSを紹介する。
また、コンテンツ、コヒーレンス、デザインのプレゼンテーション品質を評価するための嗜好に基づく評価フレームワークであるPreVALを提案する。
PreVALは人間の判断と強い相関を示し、プレゼンテーション品質を評価するための信頼性の高い自動化ツールとして検証する。
- 参考スコア(独自算出の注目度): 2.846897538377738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated generation of high-quality media presentations is challenging, requiring robust content extraction, narrative planning, visual design, and overall quality optimization. Existing methods often produce presentations with logical inconsistencies and suboptimal layouts, thereby struggling to meet professional standards. To address these challenges, we introduce RCPS (Reflective Coherent Presentation Synthesis), a novel framework integrating three key components: (1) Deep Structured Narrative Planning; (2) Adaptive Layout Generation; (3) an Iterative Optimization Loop. Additionally, we propose PREVAL, a preference-based evaluation framework employing rationale-enhanced multi-dimensional models to assess presentation quality across Content, Coherence, and Design. Experimental results demonstrate that RCPS significantly outperforms baseline methods across all quality dimensions, producing presentations that closely approximate human expert standards. PREVAL shows strong correlation with human judgments, validating it as a reliable automated tool for assessing presentation quality.
- Abstract(参考訳): 高品質なメディアプレゼンテーションの自動生成は困難であり、堅牢なコンテンツ抽出、物語計画、ビジュアルデザイン、全体的な品質最適化が必要である。
既存の手法はしばしば論理的不整合と準最適レイアウトのプレゼンテーションを生成し、プロの基準を満たすのに苦労する。
これらの課題に対処するために,(1)Deep Structured Narrative Planning,(2)Adaptive Layout Generation,(3)Iterative Optimization Loopという3つの重要なコンポーネントを統合したRCPS(Reflective Coherent Presentation Synthesis)を導入する。
さらに,コンテンツ,コヒーレンス,デザインのプレゼンテーション品質を評価するために,合理的な多次元モデルを用いた嗜好に基づく評価フレームワークであるPreVALを提案する。
実験の結果、RCPSは全ての品質次元で基準法を著しく上回り、人間専門家の基準に近似したプレゼンテーションを生み出していることがわかった。
PreVALは人間の判断と強い相関を示し、プレゼンテーション品質を評価するための信頼性の高い自動化ツールとして検証する。
関連論文リスト
- Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity [78.7107376451476]
Hi3DEvalは3D生成コンテンツに適した階層的評価フレームワークである。
素材リアリズムを明示的に評価することで審美的外観を超えてテクスチャ評価を拡張する。
ハイブリッド3次元表現に基づく3次元自動スコアリングシステムを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:50:13Z) - Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner [35.843587407696006]
大規模ビジュアル言語モデル(LVLM)は信頼性を確保するために、ますます優先順位付けに依存している。
我々は、すでに豊富な教師付きテキストイメージペアを総合的な選好三脚に変換することができる自己教師型フレームワーク、Projectnameを提案する。
論文 参考訳(メタデータ) (2025-03-06T08:33:11Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - CHATS: Combining Human-Aligned Optimization and Test-Time Sampling for Text-to-Image Generation [22.139826276559724]
人間の嗜好アライメントのような重要なコンポーネントは、生成品質を保証する上で重要な役割を果たす。
そこで我々はCHATS(Combining Human-Aligned Optimization and Test-time Sampling)を紹介した。
我々はCHATSが例外的なデータ効率を示すことを観察し、小型で高品質な漏えいデータセットでのみ強力な性能を達成する。
論文 参考訳(メタデータ) (2025-02-18T06:31:08Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network [96.54367984986898]
ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-26T03:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。