論文の概要: Dual-task Mutual Reinforcing Embedded Joint Video Paragraph Retrieval and Grounding
- arxiv url: http://arxiv.org/abs/2411.17481v1
- Date: Tue, 26 Nov 2024 14:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:47.490787
- Title: Dual-task Mutual Reinforcing Embedded Joint Video Paragraph Retrieval and Grounding
- Title(参考訳): Dual-task Mutual Reinforcing Embedded Joint Video Paragraph Retrieval and Grounding
- Authors: Mengzhao Wang, Huafeng Li, Yafei Zhang, Jinxing Li, Minghong Xie, Dapeng Tao,
- Abstract要約: 本稿では,DMR-JRG(Dual-task Mutual Reinforcecing Embedded Joint Video Paragraph Retrieval and Grounding Method)を提案する。
検索部はビデオ間のコントラスト学習を用いて、段落や動画のグローバルな特徴を大まかに調整する。
ビデオセグメントとテキスト段落の局所的,大域的,時間的次元の整合性を探ることで,正確なクロスモーダルマッチングとグラウンド化を実現する。
- 参考スコア(独自算出の注目度): 24.516357957605024
- License:
- Abstract: Video Paragraph Grounding (VPG) aims to precisely locate the most appropriate moments within a video that are relevant to a given textual paragraph query. However, existing methods typically rely on large-scale annotated temporal labels and assume that the correspondence between videos and paragraphs is known. This is impractical in real-world applications, as constructing temporal labels requires significant labor costs, and the correspondence is often unknown. To address this issue, we propose a Dual-task Mutual Reinforcing Embedded Joint Video Paragraph Retrieval and Grounding method (DMR-JRG). In this method, retrieval and grounding tasks are mutually reinforced rather than being treated as separate issues. DMR-JRG mainly consists of two branches: a retrieval branch and a grounding branch. The retrieval branch uses inter-video contrastive learning to roughly align the global features of paragraphs and videos, reducing modality differences and constructing a coarse-grained feature space to break free from the need for correspondence between paragraphs and videos. Additionally, this coarse-grained feature space further facilitates the grounding branch in extracting fine-grained contextual representations. In the grounding branch, we achieve precise cross-modal matching and grounding by exploring the consistency between local, global, and temporal dimensions of video segments and textual paragraphs. By synergizing these dimensions, we construct a fine-grained feature space for video and textual features, greatly reducing the need for large-scale annotated temporal labels.
- Abstract(参考訳): ビデオパラグラフグラウンド(VPG)は、与えられたテキストの段落クエリに関連するビデオの中で、最も適切な瞬間を正確に見つけることを目的としている。
しかし、既存の手法は一般的に大規模な注釈付き時間ラベルに依存しており、ビデオと段落の対応が知られていると仮定する。
時間ラベルの構築には多大な作業コストが必要であり、その対応性はよく分かっていないため、現実の応用ではこれは現実的ではない。
そこで本稿では,DMR-JRG(Dual-task Mutual Reinforcing Embedded Joint Paragraph Retrieval and Grounding Method)を提案する。
本手法では,検索タスクと接地タスクは,個別の課題として扱われるのではなく,相互に強化される。
DMR-JRGは主に検索枝と接地枝の2つの枝から成る。
検索部は、動画間のコントラスト学習を用いて、段落と動画のグローバルな特徴を大まかに整合させ、モダリティの差を減らし、段落と動画の対応を不要にするために粗粒度の特徴空間を構築する。
さらに、この粗い特徴空間は、よりきめ細かい文脈表現を抽出するグラウンディング分岐をさらに促進する。
ビデオセグメントとテキスト段落の局所的,大域的,時間的次元の整合性を探ることで,正確なクロスモーダルマッチングとグラウンド化を実現する。
これらの次元を相乗化することにより、ビデオとテキストの特徴を微粒化した特徴空間を構築し、大規模な注釈付き時間ラベルの必要性を大幅に低減する。
関連論文リスト
- SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。