論文の概要: Self-Reasoning Agentic Framework for Narrative Product Grid-Collage Generation
- arxiv url: http://arxiv.org/abs/2604.16958v1
- Date: Sat, 18 Apr 2026 10:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.261147
- Title: Self-Reasoning Agentic Framework for Narrative Product Grid-Collage Generation
- Title(参考訳): 物語的製品グリッドコラージュ生成のための自己推論エージェントフレームワーク
- Authors: Minyan Luo, Yuxin Zhang, Yifei Li, Xincan Wang, Fuzhang Wu, Tong-Yee Lee, Oliver Deussen, Weiming Dong,
- Abstract要約: 商品グリッドコラージュ生成のための自己推論型エージェントフレームワークを提案する。
私たちのフレームワークは、審美的品質、物語の豊かさ、視覚的コヒーレンスを継続的に改善します。
- 参考スコア(独自算出の注目度): 36.34342923312848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Narrative-driven product photography has become a prevalent paradigm in modern marketing, as coherent visual storytelling helps convey product value and establishes emotional engagement with consumers. However, existing image generation methods do not support structured narrative planning or cross-panel coordination, often resulting in weak storytelling and visual incoherence. In practice, narrative product photography is commonly presented as multi-grid collages, where multiple views or scenes jointly communicate a product narrative. To ensure visual consistency across grids and aesthetic harmony of the overall composition, we generate the collage as a single unified image rather than composing independently synthesized panels. We propose a self-reasoning agentic framework for narrative product grid collage generation. Given a product packshot and its name, the system first constructs a Product Narrative Framework that explicitly represents the product's identity, usage context, and situational environment, and translates it into complementary grids governed by a shared visual style. Constraint-aware prompts are then compiled and fed to a generation model that synthesizes the collage jointly. The generated output is evaluated on both content validity and photography quality, with explicit gates determining whether to proceed or refine. When evaluation fails, the system performs failure attribution and applies targeted refinement, enabling progressive improvement through iterative self-reflection. Experiments demonstrate that our framework consistently improves aesthetic quality, narrative richness, and visual coherence, compared to direct prompting baselines.
- Abstract(参考訳): 物語駆動のプロダクト写真は、コヒーレントなビジュアルストーリーテリングが製品価値を伝達し、消費者との感情的な関わりを確立するため、現代のマーケティングにおいて一般的なパラダイムとなっている。
しかし、既存の画像生成手法は、構造化されたストーリープランニングやクロスパネルコーディネートをサポートしておらず、しばしばストーリーテリングの弱さと視覚的不整合をもたらす。
実際には、物語製品写真は、複数のビューやシーンが共同で製品物語を伝えるマルチグリッドコラージュとして一般的に紹介される。
グリッド間の視覚的一貫性と全体構成の審美的調和を確保するため,独立に合成されたパネルを構成するのではなく,単一の統一画像としてコラージュを生成する。
商品グリッドコラージュ生成のための自己推論型エージェントフレームワークを提案する。
製品パックショットとその名称を与えられたシステムは、まず製品のアイデンティティ、使用状況、状況環境を明確に表現したプロダクトナラティブフレームワークを構築し、それを視覚的な共有スタイルによって管理される補完的なグリッドに変換する。
制約対応プロンプトはコンパイルされ、コラージュを共同で合成する生成モデルに供給される。
生成した出力は、コンテンツ妥当性と写真品質の両方に基づいて評価され、明確なゲートが進行するか否かを判定する。
評価が失敗すると、システムは失敗の帰属を行い、目標の洗練を施し、反復的な自己回帰による進歩的な改善を可能にする。
実験により,我々のフレームワークは,直感的ベースラインよりも審美的品質,物語的豊かさ,視覚的コヒーレンスを一貫して改善することが示された。
関連論文リスト
- DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior [84.56343116275423]
ビデオ生成モデルに基づくストーリーボードフレームワークであるDreamShotを紹介する。
DreamShotは、制御可能なマルチショット合成に強力なビデオ拡散プリミティブを利用する。
物語の忠実さとキャラクタの連続性を改善した視覚的・意味的に一貫性のあるシーケンスを生成する。
論文 参考訳(メタデータ) (2026-04-19T01:51:41Z) - LogiStory: A Logic-Aware Framework for Multi-Image Story Visualization [59.35938978648807]
論理を意識したマルチイメージストーリー可視化フレームワークLogiStoryを提案する。
このフレームワークは、ストーリービジュアライゼーションにおけるビジュアルロジックを明示的にモデル化する中心的なイノベーションに基づいて構築されている。
この研究は、一般的な画像シーケンスおよびビデオ生成タスクにおける視覚ロジックのモデリングと強化に向けた基礎的なステップを提供する。
論文 参考訳(メタデータ) (2026-03-30T06:37:12Z) - All-in-One Conditioning for Text-to-Image Synthesis [45.22434803596108]
シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。
推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
論文 参考訳(メタデータ) (2026-02-09T20:16:19Z) - Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs [0.8702432681310401]
Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。
本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
論文 参考訳(メタデータ) (2025-07-29T15:01:31Z) - DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。
提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。
視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文 参考訳(メタデータ) (2025-03-03T15:22:57Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。