論文の概要: ShoulderShot: Generating Over-the-Shoulder Dialogue Videos
- arxiv url: http://arxiv.org/abs/2508.07597v2
- Date: Fri, 15 Aug 2025 09:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 12:50:03.071974
- Title: ShoulderShot: Generating Over-the-Shoulder Dialogue Videos
- Title(参考訳): ShoulderShot: オーバー・ザ・ショルダーの対話ビデオを生成する
- Authors: Yuang Zhang, Junqi Cheng, Haoyu Zhao, Jiaxi Gu, Fangyuan Zou, Zenghui Lu, Peng Shu,
- Abstract要約: ShoulderShotはデュアルショット生成とループビデオを組み合わせたフレームワークで、文字の一貫性を維持しながら対話を拡張できる。
本研究は,ショット・リバース・ショット・レイアウト,空間的連続性,対話長の柔軟性の観点から,既存の手法を超越した機能を示す。
- 参考スコア(独自算出の注目度): 10.699509921258564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-the-shoulder dialogue videos are essential in films, short dramas, and advertisements, providing visual variety and enhancing viewers' emotional connection. Despite their importance, such dialogue scenes remain largely underexplored in video generation research. The main challenges include maintaining character consistency across different shots, creating a sense of spatial continuity, and generating long, multi-turn dialogues within limited computational budgets. Here, we present ShoulderShot, a framework that combines dual-shot generation with looping video, enabling extended dialogues while preserving character consistency. Our results demonstrate capabilities that surpass existing methods in terms of shot-reverse-shot layout, spatial continuity, and flexibility in dialogue length, thereby opening up new possibilities for practical dialogue video generation. Videos and comparisons are available at https://shouldershot.github.io.
- Abstract(参考訳): 過密な対話ビデオは映画、短編ドラマ、広告に不可欠であり、視覚的な多様性を提供し、視聴者の感情的なつながりを高める。
その重要性にもかかわらず、これらの対話シーンはビデオ生成研究においてほとんど未発見のままである。
主な課題は、異なるショット間での文字の一貫性の維持、空間的連続性の感覚の創出、限られた計算予算内での長い多ターン対話の生成である。
ここでは、デュアルショット生成とループビデオを組み合わせたフレームワークであるWarderShotを紹介し、文字の一貫性を維持しながら対話の拡張を可能にする。
本研究は,対話長におけるショット・リバース・ショット・レイアウト,空間連続性,柔軟性の観点から,既存の手法を超越した機能を示し,実用的な対話ビデオ生成の新たな可能性を開くものである。
ビデオと比較はhttps://shouldershot.github.io.comで公開されている。
関連論文リスト
- Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的、文字条件付き音声として表現し、その結果、完全に音声化されたマルチモーダルなビデオ物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus [69.46707346122113]
本稿では,人間間ビデオ駆動型多言語混在型対話コーパスを提案する。
KwaiChatのコーパスには合計93,209の動画と246,080の対話があり、4つの対話タイプ、30のドメイン、4つの言語、13のトピックが含まれている。
KwaiChat上での 7 つの異なる LLM の解析により、GPT-4o が最高の性能を発揮するが、この状況では性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - TV-Dialogue: Crafting Theme-Aware Video Dialogues with Immersive Interaction [25.851857218815415]
本稿では,ビデオコンテンツに適合し,ユーザ指定のテーマに準拠する新たな対話生成を目的とした,TVDC(Theme-aware Video Dialogue Crafting)を紹介する。
TV-Dialogueは、テーマアライメントと視覚的一貫性の両方を保証する、新しいマルチモーダルエージェントフレームワークである。
本研究は, 映像再生, フィルムダビング, 下流マルチモーダルタスクにおけるTVダイアログの活用など, 様々な応用の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-01-31T08:04:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Grounding is All You Need? Dual Temporal Grounding for Video Dialog [48.3411605700214]
本稿では,Dual Temporal Grounding-enhanced Video Dialog Model (DTGVD)を紹介する。
ダイアログ固有の時間領域を予測することによって、二重時間関係を強調する。
また、ビデオコンテンツのフィルタリングや、ビデオとダイアログの両方のコンテキストでの応答のグラウンド化も行う。
論文 参考訳(メタデータ) (2024-10-08T07:48:34Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。