論文の概要: TV-Dialogue: Crafting Theme-Aware Video Dialogues with Immersive Interaction
- arxiv url: http://arxiv.org/abs/2501.18940v1
- Date: Fri, 31 Jan 2025 08:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:56.371936
- Title: TV-Dialogue: Crafting Theme-Aware Video Dialogues with Immersive Interaction
- Title(参考訳): テレビダイアログ:没入型対話によるテーマ対応ビデオ対話の制作
- Authors: Sai Wang, Fan Ma, Xinyi Li, Hehe Fan, Yu Wu,
- Abstract要約: 本稿では,ビデオコンテンツに適合し,ユーザ指定のテーマに準拠する新たな対話生成を目的とした,TVDC(Theme-aware Video Dialogue Crafting)を紹介する。
TV-Dialogueは、テーマアライメントと視覚的一貫性の両方を保証する、新しいマルチモーダルエージェントフレームワークである。
本研究は, 映像再生, フィルムダビング, 下流マルチモーダルタスクにおけるTVダイアログの活用など, 様々な応用の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 25.851857218815415
- License:
- Abstract: Recent advancements in LLMs have accelerated the development of dialogue generation across text and images, yet video-based dialogue generation remains underexplored and presents unique challenges. In this paper, we introduce Theme-aware Video Dialogue Crafting (TVDC), a novel task aimed at generating new dialogues that align with video content and adhere to user-specified themes. We propose TV-Dialogue, a novel multi-modal agent framework that ensures both theme alignment (i.e., the dialogue revolves around the theme) and visual consistency (i.e., the dialogue matches the emotions and behaviors of characters in the video) by enabling real-time immersive interactions among video characters, thereby accurately understanding the video content and generating new dialogue that aligns with the given themes. To assess the generated dialogues, we present a multi-granularity evaluation benchmark with high accuracy, interpretability and reliability, demonstrating the effectiveness of TV-Dialogue on self-collected dataset over directly using existing LLMs. Extensive experiments reveal that TV-Dialogue can generate dialogues for videos of any length and any theme in a zero-shot manner without training. Our findings underscore the potential of TV-Dialogue for various applications, such as video re-creation, film dubbing and its use in downstream multimodal tasks.
- Abstract(参考訳): LLMの最近の進歩は、テキストや画像間の対話生成の進展を加速させているが、ビデオベースの対話生成は未探索であり、ユニークな課題を呈している。
本稿では,ビデオコンテンツに整合し,ユーザ特定テーマに順応する新たな対話生成を目的とした,テーマ対応ビデオ対話制作(TVDC)を紹介する。
本稿では,映像キャラクタ間のリアルタイムな没入的対話を可能にすることによって,テーマアライメント(テーマの周囲を旋回する対話)と視覚的一貫性(映像中のキャラクターの感情と行動とを一致させる)を両立させる,新しいマルチモーダルエージェントフレームワークであるTV-Dialogueを提案する。
生成したダイアログの精度,解釈可能性,信頼性を両立させるマルチグラニュラリティ評価ベンチマークを提案し,既存のLCMを直接使用した自己照合データセット上でのTV対話の有効性を実証した。
広汎な実験により、TV-Dialogueは、トレーニングなしで、どんな長さでも、どんなテーマでもゼロショットでビデオの対話を生成できることがわかった。
本研究は, 映像再生, フィルムダビング, 下流マルチモーダルタスクにおけるTVダイアログの活用など, 様々な応用の可能性を明らかにするものである。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - DialogLM: Pre-trained Model for Long Dialogue Understanding and
Summarization [19.918194137007653]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。
長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。
我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-06T13:55:03Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。