論文の概要: BOOKAGENT: Orchestrating Safety-Aware Visual Narratives via Multi-Agent Cognitive Calibration
- arxiv url: http://arxiv.org/abs/2604.16541v1
- Date: Fri, 17 Apr 2026 01:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.062418
- Title: BOOKAGENT: Orchestrating Safety-Aware Visual Narratives via Multi-Agent Cognitive Calibration
- Title(参考訳): BOokaGENT:マルチエージェント認知校正による安全対応型ビジュアルナラティブのオーケストレーション
- Authors: Bo Gao, Chang Liu, Yuyang Miao, Siyuan Ma, Ser-Nam Lim,
- Abstract要約: BookAgentは、高品質で安全を意識したビジュアル物語のための、安全を意識したマルチエージェントコラボレーションフレームワークである。
BookAgentは、ユーザドラフトからのエンド・ツー・エンドのストーリーブックの合成を、共同で計画、スクリプティング、イラストレーション、世界的な不整合の修復によって目標としている。
広範な実験により、BookAgentは物語のコヒーレンス、視覚的一貫性、安全コンプライアンスにおいて、現在の手法を著しく上回っていることが示されている。
- 参考スコア(独自算出の注目度): 46.89116537594367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Generative Models (LGMs) have revolutionized multi-modal generation. However, generating illustrated storybooks remains an open challenge, where prior works mainly decompose this task into separate stages, and thus, holistic multi-modal grounding remains limited. Besides, while safety alignment is studied for text- or image-only generation, existing works rarely integrate child-specific safety constraints into narrative planning and sequence-level multi-modal verification. To address these limitations, we propose BookAgent, a safety-aware multi-agent collaboration framework designed for high-quality, safety-aware visual narratives. Different from prior story visualization models that assume a fixed storyline sequence, BookAgent targets end-to-end storybook synthesis from a user draft by jointly planning, scripting, illustrating, and globally repairing inconsistencies. To ensure precise multi-modal grounding, BookAgent dynamically calibrates page-level alignment between textual scripts and visual layouts. Furthermore, BookAgent calibrates holistic consistency from the temporal dimension, by verifying-then-rectifying global inconsistencies in character identity and storytelling logic. Extensive experiments demonstrate that BookAgent significantly outperforms current methods in narrative coherence, visual consistency, and safety compliance, offering a robust paradigm for reliable agents in complex multi-modal creation. The implementation will be publicly released at https://github.com/bogao-code/BookAgent/tree/main.
- Abstract(参考訳): 大規模生成モデル(LGM)の最近の進歩は、マルチモーダル世代に革命をもたらした。
しかし、図面化されたストーリーブックの生成は未解決の課題であり、それまでの作業は、主にこのタスクを別々の段階に分解するので、総合的なマルチモーダルグラウンドは限定的のままである。
さらに、テキストや画像のみの生成に対して安全性アライメントが研究されているが、既存の研究は、子固有の安全制約を物語計画やシーケンスレベルのマルチモーダル検証に組み入れることは滅多にない。
これらの制約に対処するために,高品質で安全に配慮した視覚的物語用に設計された,安全を意識したマルチエージェント協調フレームワークであるBookAgentを提案する。
固定されたストーリーラインシーケンスを仮定する以前のストーリービジュアライゼーションモデルとは異なり、BookAgentはユーザドラフトからのエンド・ツー・エンドのストーリーブックの合成を、共同で計画、スクリプティング、イラストレーション、世界的不整合の修復によってターゲットとしている。
正確なマルチモーダルグラウンドを確保するため、BookAgentはテキストスクリプトとビジュアルレイアウトの間のページレベルのアライメントを動的に調整する。
さらに、BookAgentは、キャラクターのアイデンティティとストーリーテリングの論理における大域的な矛盾を検証することによって、時間次元からの全体的一貫性を校正する。
大規模な実験により、BookAgentは物語のコヒーレンス、視覚的整合性、安全コンプライアンスにおいて現在の手法を著しく上回り、複雑なマルチモーダル生成において信頼性のあるエージェントに対して堅牢なパラダイムを提供する。
実装はhttps://github.com/bogao-code/BookAgent/tree/mainで公開される。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation [9.91271343855315]
CoAgentは、コヒーレントなビデオ生成のためのフレームワークで、プラン合成の検証パイプラインとしてプロセスを定式化している。
Storyboard Plannerは、入力を明示的な実体、空間的関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
ペーシング対応エディタは、所望の物語の流れに合わせて時間リズムと遷移を洗練する。
論文 参考訳(メタデータ) (2025-12-27T09:38:34Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models [3.3454373538792552]
本稿では,マルチパネル・ストーリー・ビジュアライゼーションにおける不整合を自律的に識別し,修正し,洗練する,協調型マルチエージェント・フレームワークを提案する。
エージェントは反復ループで動作し、全シーケンスを生成せずに、きめ細かいパネルレベルの更新を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:29Z) - VisAgent: Narrative-Preserving Story Visualization Framework [5.86192577938549]
VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
論文 参考訳(メタデータ) (2025-03-04T08:41:45Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。