論文の概要: Grounding is All You Need? Dual Temporal Grounding for Video Dialog
- arxiv url: http://arxiv.org/abs/2410.05767v2
- Date: Thu, 14 Nov 2024 11:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:47.094386
- Title: Grounding is All You Need? Dual Temporal Grounding for Video Dialog
- Title(参考訳): ビデオダイアログのための2つの時間的グラウンド
- Authors: You Qin, Wei Ji, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Roger Zimmermann, Lizi Liao,
- Abstract要約: 本稿では,Dual Temporal Grounding-enhanced Video Dialog Model (DTGVD)を紹介する。
ダイアログ固有の時間領域を予測することによって、二重時間関係を強調する。
また、ビデオコンテンツのフィルタリングや、ビデオとダイアログの両方のコンテキストでの応答のグラウンド化も行う。
- 参考スコア(独自算出の注目度): 48.3411605700214
- License:
- Abstract: In the realm of video dialog response generation, the understanding of video content and the temporal nuances of conversation history are paramount. While a segment of current research leans heavily on large-scale pretrained visual-language models and often overlooks temporal dynamics, another delves deep into spatial-temporal relationships within videos but demands intricate object trajectory pre-extractions and sidelines dialog temporal dynamics. This paper introduces the Dual Temporal Grounding-enhanced Video Dialog model (DTGVD), strategically designed to merge the strengths of both dominant approaches. It emphasizes dual temporal relationships by predicting dialog turn-specific temporal regions, filtering video content accordingly, and grounding responses in both video and dialog contexts. One standout feature of DTGVD is its heightened attention to chronological interplay. By recognizing and acting upon the dependencies between different dialog turns, it captures more nuanced conversational dynamics. To further bolster the alignment between video and dialog temporal dynamics, we've implemented a list-wise contrastive learning strategy. Within this framework, accurately grounded turn-clip pairings are designated as positive samples, while less precise pairings are categorized as negative. This refined classification is then funneled into our holistic end-to-end response generation mechanism. Evaluations using AVSD@DSTC-7 and AVSD@DSTC-8 datasets underscore the superiority of our methodology.
- Abstract(参考訳): ビデオ対話応答生成の領域では、ビデオ内容の理解と会話履歴の時間的ニュアンスが最も重要である。
現在の研究の一部では、大規模な事前学習された視覚言語モデルに大きく依存しており、時間的ダイナミクスを見落としている場合が多いが、ビデオ内の空間的時間的関係を深く掘り下げているが、複雑な対象軌跡の抽出と側線ダイアログの時間的ダイナミクスが要求されている。
本稿では,2つの支配的アプローチの長所をマージするために戦略的に設計された,時間的グラウンディング強化ビデオダイアログモデル(DTGVD)を紹介する。
ダイアログ固有の時間領域を予測し、それに従ってビデオコンテンツをフィルタリングし、ビデオコンテキストとダイアログコンテキストの両方で応答をグラウンド化することで、二重時間関係を強調する。
DTGVDの特長の1つは、時間的相互作用に対する注意の高まりである。
異なるダイアログ間の依存関係を認識して作用することにより、より微妙な会話のダイナミクスをキャプチャする。
ビデオと対話の時間的ダイナミクスの整合性をさらに強化するために、リストワイドのコントラスト学習戦略を実装した。
この枠組みでは、正確に接地されたターンクリップペアリングは正のサンプルとして指定され、より正確なペアリングは負のものとして分類される。
この洗練された分類は、我々の総合的なエンドツーエンドの応答生成メカニズムに導かれる。
AVSD@DSTC-7 と AVSD@DSTC-8 データセットによる評価は,本手法の優位性を裏付けるものである。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。