論文の概要: NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
- arxiv url: http://arxiv.org/abs/2602.09070v1
- Date: Mon, 09 Feb 2026 09:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.172522
- Title: NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control
- Title(参考訳): NarraScore:階層的感情制御による視覚的物語と音楽のダイナミクスのブリッジ
- Authors: Yufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu,
- Abstract要約: ナラスコア(NarraScore)は、感情が物語論理の高密度圧縮として働くという中心的な洞察に基づく階層的なフレームワークである。
NarraScoreは、グローバルな構造とローカルなダイナミズムを調和させるために、Dual-Branch Injection戦略を採用している。
NarraScoreは、無視可能な計算オーバーヘッドを伴う最先端の一貫性と物語のアライメントを実現している。
- 参考スコア(独自算出の注目度): 59.6128550986024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a \textit{Global Semantic Anchor} ensures stylistic stability, while a surgical \textit{Token-Level Affective Adapter} modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.
- Abstract(参考訳): 長大なビデオのためのコヒーレントなサウンドトラックを合成することは、いまだに深刻な課題であり、現在、計算のスケーラビリティ、時間的コヒーレンス、そして最も重要なのは、物語論理の進化に対する広範に意味的な盲目という3つの重要な障害によって停滞している。
これらのギャップを埋めるために,感情が物語論理の高密度圧縮となるというコア洞察に基づく階層的枠組みであるNarraScoreを提案する。
凍結した視覚言語モデル(VLM)を連続的な感情センサとして再利用し,高次元の視覚ストリームを高密度で物語を意識したValence-Arousal trajectoriesに蒸留した。
機械学的には、NarraScoreは局所ダイナミズムとグローバルな構造を整合させるためにデュアルブランチ・インジェクション(Dual-Branch Injection)戦略を採用している: \textit{Global Semantic Anchor} はスタイリスティックな安定性を保証する一方、外科的 \textit{Token-Level Affective Adapter} は直列の残差注入によって局所的な緊張を調節する。
この最小限の設計は、密集した注意とアーキテクチャのクローンのボトルネックを回避し、データ不足に関連する過度なリスクを効果的に軽減します。
実験により、NarraScoreは、無視できる計算オーバーヘッドを伴う最先端の一貫性と物語のアライメントを実現し、ロングビデオサウンドトラック生成のための完全に自律的なパラダイムを確立した。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs [0.8702432681310401]
Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。
本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
論文 参考訳(メタデータ) (2025-07-29T15:01:31Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。