Fugu-MT 論文翻訳(概要): StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

論文の概要: StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

arxiv url: http://arxiv.org/abs/2602.21273v1
Date: Tue, 24 Feb 2026 16:07:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.569552
Title: StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives
Title（参考訳）: StoryTailor:アクションリッチな多目的ビジュアルナラティブのためのゼロショットパイプライン
Authors: Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang,
Abstract要約: 本稿では、時間的コヒーレントなアイデンティティ保存画像列を生成するゼロショットパイプラインを提案する。ストーリーは表現力のあるインタラクションを提供し、安定したシーンを進化させる。
参考スコア（独自算出の注目度）: 7.243114047801061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating multi-frame, action-rich visual narratives without fine-tuning faces a threefold tension: action text faithfulness, subject identity fidelity, and cross-frame background continuity. We propose StoryTailor, a zero-shot pipeline that runs on a single RTX 4090 (24 GB) and produces temporally coherent, identity-preserving image sequences from a long narrative prompt, per-subject references, and grounding boxes. Three synergistic modules drive the system: Gaussian-Centered Attention (GCA) to dynamically focus on each subject core and ease grounding-box overlaps; Action-Boost Singular Value Reweighting (AB-SVR) to amplify action-related directions in the text embedding space; and Selective Forgetting Cache (SFC) that retains transferable background cues, forgets nonessential history, and selectively surfaces retained cues to build cross-scene semantic ties. Compared with baseline methods, experiments show that CLIP-T improves by up to 10-15%, with DreamSim lower than strong baselines, while CLIP-I stays in a visually acceptable, competitive range. With matched resolution and steps on a 24 GB GPU, inference is faster than FluxKontext. Qualitatively, StoryTailor delivers expressive interactions and evolving yet stable scenes.
Abstract（参考訳）: 微調整のない多フレームのアクションリッチなビジュアルな物語を生成することは、アクションテキストの忠実さ、主観的アイデンティティの忠実さ、フレーム間の背景の連続性という3つの緊張に直面します。単一のRTX 4090 (24 GB) 上で動作するゼロショットパイプラインであるStoryTailorを提案する。 Gaussian-Centered Attention (GCA) は各主題のコアに動的に集中し、グラウンドボックスのオーバーラップを緩和する。 Action-Boost Singular Value Reweighting (AB-SVR) はテキスト埋め込み空間におけるアクション関連の方向を増幅する。ベースライン法と比較すると、CLIP-Tは10～15%改善され、DreamSimは強いベースラインよりも低いが、CLIP-Iは視覚的に許容される競争範囲に留まっている。 24GBのGPUの解像度とステップが一致しているため、推論はFluxKontextより高速である。質的に言えば、StoryTailorは表現力のあるインタラクションを提供し、安定したシーンを進化させる。

関連論文リスト

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions [137.1784538723039]
本稿では,ビデオ合成における3つの限界に対処する新しいフレームワーク,データセット,モデルを提案する。ショット間のバックグラウンド一貫性、シームレスなマルチオブジェクトショット・ツー・ショット・トランジション、時間単位の物語へのスケーラビリティに対処する。本稿では,複数の被写体が入射する複雑なシナリオに対してスムーズなショット遷移を生成するトランジション対応ビデオ合成モジュールを提案する。
論文参考訳（メタデータ） (2026-03-04T02:10:32Z)
DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling [1.7683026013361776]
DeCorStoryは、フレーム間のセマンティック干渉を減らす、トレーニング不要な推論時間フレームワークである。フレームレベルのセマンティクスに即時埋め込みデコリレーションを適用し、続いて特異値の再重み付けを行い、プロンシブ固有情報を強化する。実験は、迅速なイメージアライメント、アイデンティティの整合性、視覚的多様性において一貫した改善を示す。
論文参考訳（メタデータ） (2026-02-01T16:07:30Z)
STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。 ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文参考訳（メタデータ） (2025-12-13T15:57:29Z)
TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。 TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文参考訳（メタデータ） (2025-11-17T14:15:03Z)
Narrative-to-Scene Generation: An LLM-Driven Pipeline for 2D Game Environments [0.09821874476902966]
本稿では,ショートナラプロンプトを2次元タイルベースのゲームシーンに変換する軽量パイプラインを提案する。 LLMが生成した物語から、3つの重要な時間枠を特定し、空間的述語を抽出し、視覚的資産を検索する。層状地形をセルオートマタを用いて生成し、述語構造に接地した空間規則を用いてオブジェクトを配置する。
論文参考訳（メタデータ） (2025-08-31T01:45:56Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。 VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文参考訳（メタデータ） (2025-03-19T11:59:14Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。 VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文参考訳（メタデータ） (2024-12-03T08:33:50Z)
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。 PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2024-07-13T05:02:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。