Fugu-MT 論文翻訳(概要): Disentangle and denoise: Tackling context misalignment for video moment retrieval

論文の概要: Disentangle and denoise: Tackling context misalignment for video moment retrieval

arxiv url: http://arxiv.org/abs/2408.07600v1
Date: Wed, 14 Aug 2024 15:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 12:53:17.512317
Title: Disentangle and denoise: Tackling context misalignment for video moment retrieval
Title（参考訳）: ディスタングルとデヌーズ:ビデオモーメント検索におけるコンテキストの不一致に対処する
Authors: Kaijing Ma, Han Fang, Xianghao Zang, Chao Ban, Lanxiang Zhou, Zhongjiang He, Yongxiang Li, Hao Sun, Zerun Feng, Xingsong Hou,
Abstract要約: Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
参考スコア（独自算出の注目度）: 16.939535169282262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Moment Retrieval, which aims to locate in-context video moments according to a natural language query, is an essential task for cross-modal grounding. Existing methods focus on enhancing the cross-modal interactions between all moments and the textual description for video understanding. However, constantly interacting with all locations is unreasonable because of uneven semantic distribution across the timeline and noisy visual backgrounds. This paper proposes a cross-modal Context Denoising Network (CDNet) for accurate moment retrieval by disentangling complex correlations and denoising irrelevant dynamics.Specifically, we propose a query-guided semantic disentanglement (QSD) to decouple video moments by estimating alignment levels according to the global and fine-grained correlation. A Context-aware Dynamic Denoisement (CDD) is proposed to enhance understanding of aligned spatial-temporal details by learning a group of query-relevant offsets. Extensive experiments on public benchmarks demonstrate that the proposed CDNet achieves state-of-the-art performances.
Abstract（参考訳）: Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内ビデオのモーメントを見つけることを目的としており、モーダルグラウンドに欠かせないタスクである。既存の手法は、全モーメント間のクロスモーダルな相互作用と、ビデオ理解のためのテキスト記述の強化に重点を置いている。しかし、タイムライン全体にわたる不均一なセマンティックな分布とノイズの多い視覚的背景のため、すべての場所と常に対話することは理にかなっている。本稿では,複雑な相関関係を解消し,無関係なダイナミクスをデノベートすることで正確なモーダル・コンテクスト・デノナイジング・ネットワーク(CDNet)を提案する。特に,大域的および微粒な相関関係に基づいてアライメントレベルを推定することにより,映像モーメントをデノベートするクエリ誘導意味的ディアンタングメント(QSD)を提案する。問合せ関連オフセットの集合を学習することにより、協調した時空間の詳細の理解を深めるため、文脈認識型動的デノイズメント(CDD)を提案する。公開ベンチマークでの大規模な実験により、提案したCDNetが最先端のパフォーマンスを達成することが示された。

関連論文リスト

Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
The Devil is in the Spurious Correlations: Boosting Moment Retrieval with Dynamic Learning [49.40254251698784]
本稿では,モーメント検索のための動的学習手法を提案する。まず、クエリーモーメントの動的コンテキストを構築するための新しいビデオ合成手法を提案する。第2に、背景との過度な関連を緩和するために、テキストと力学の相互作用を組み込むことで、時間的に表現を強化する。
論文参考訳（メタデータ） (2025-01-13T13:13:06Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T13:07:05Z)
Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文参考訳（メタデータ） (2021-10-31T07:13:34Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。 TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-22T03:13:05Z)
Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文参考訳（メタデータ） (2020-04-16T08:10:41Z)
Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。 CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文参考訳（メタデータ） (2020-04-10T10:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。