Fugu-MT 論文翻訳(概要): The Devil is in the Spurious Correlation: Boosting Moment Retrieval via Temporal Dynamic Learning

論文の概要: The Devil is in the Spurious Correlation: Boosting Moment Retrieval via Temporal Dynamic Learning

arxiv url: http://arxiv.org/abs/2501.07305v1
Date: Mon, 13 Jan 2025 13:13:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:14.064488
Title: The Devil is in the Spurious Correlation: Boosting Moment Retrieval via Temporal Dynamic Learning
Title（参考訳）: The Devil is in the Spurious correlation: Boosting Moment Retrieval through Temporal Dynamic Learning
Authors: Xinyang Zhou, Fanyue Wei, Lixin Duan, Wen Li,
Abstract要約: 本稿では,モーメント検索のための時間動的学習手法を提案する。提案手法は,モーメント検索,QVHighlights,Charades-STAの2つの一般的なベンチマークに対して,新しい最先端性能を確立する。
参考スコア（独自算出の注目度）: 23.357772759438806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given a textual query along with a corresponding video, the objective of moment retrieval aims to localize the moments relevant to the query within the video. While commendable results have been demonstrated by existing transformer-based approaches, predicting the accurate temporal span of the target moment is currently still a major challenge. In this paper, we reveal that a crucial reason stems from the spurious correlation between the text queries and the moment context. Namely, the model may associate the textual query with the background frames rather than the target moment. To address this issue, we propose a temporal dynamic learning approach for moment retrieval, where two strategies are designed to mitigate the spurious correlation. First, we introduce a novel video synthesis approach to construct a dynamic context for the relevant moment. With separate yet similar videos mixed up, the synthesis approach empowers our model to attend to the target moment of the corresponding query under various dynamic contexts. Second, we enhance the representation by learning temporal dynamics. Besides the visual representation, text queries are aligned with temporal dynamic representations, which enables our model to establish a non-spurious correlation between the query-related moment and context. With the aforementioned proposed method, the spurious correlation issue in moment retrieval can be largely alleviated. Our method establishes a new state-of-the-art performance on two popular benchmarks of moment retrieval, \ie, QVHighlights and Charades-STA. In addition, the detailed ablation analyses demonstrate the effectiveness of the proposed strategies. Our code will be publicly available.
Abstract（参考訳）: テキストクエリと対応するビデオが与えられた場合、モーメント検索の目的は、ビデオ内のクエリに関連するモーメントをローカライズすることである。既存のトランスフォーマーベースのアプローチでは、賞賛可能な結果が証明されているが、目標モーメントの正確な時間的間隔を予測することは、まだ大きな課題である。本稿では,テキストクエリとモーメントコンテキストの素早い相関から重要な理由が明らかになった。すなわち、ターゲットモーメントではなく、テキストクエリと背景フレームを関連付けることができる。この問題に対処するために,モーメント検索のための時間動的学習手法を提案する。まず、関連モーメントのための動的コンテキストを構築するための新しいビデオ合成手法を提案する。異なるが類似したビデオが混在しているため、この合成手法により、様々な動的コンテキスト下で対応するクエリのターゲットモーメントに参加することができる。第二に、時間的ダイナミクスを学習することで表現を強化する。視覚的表現の他に、テキストクエリは時間的動的表現と整合しており、クエリ関連モーメントとコンテキストの非スパーラスな相関を確立することができる。上記の方法では,モーメント検索における突発的相関問題を大幅に緩和することができる。提案手法は, モーメント検索の2つのベンチマーク, \ie, QVHighlights, Charades-STAに対して, 最新の性能を示す。さらに, 詳細なアブレーション分析を行い, 提案手法の有効性を示した。私たちのコードは公開されます。

関連論文リスト

Efficient and Effective Query Context-Aware Learning-to-Rank Model for Sequential Recommendation [0.027961972519572442]
本稿では、因果的言語モデリング手法を用いて訓練されたトランスフォーマーにクエリコンテキストを組み込むための様々な戦略を解析する。そこで本稿では,アイテムシーケンスをアテンションメカニズム内でクエリコンテキストと効果的に融合する手法を提案する。
論文参考訳（メタデータ） (2025-07-04T19:50:01Z)
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval [5.849812241074385]
PRVRは、テキストクエリに関連するターゲットビデオを取得することを目的としている。既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-28T09:52:46Z)
Few-Shot, No Problem: Descriptive Continual Relation Extraction [27.296604792388646]
AIシステムが現実世界のドメインにおける進化する関係を識別し、適応できるようにする上で、わずかなショットの連続関係抽出は重要な課題である。従来のメモリベースのアプローチは、しばしば限られたサンプルに過度に適合し、古い知識の強化に失敗する。本稿では,関係関係記述を生成するために,大規模言語モデルから始まる新しい検索ベースソリューションを提案する。
論文参考訳（メタデータ） (2025-02-27T23:44:30Z)
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。 5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文参考訳（メタデータ） (2024-08-22T15:13:27Z)
Disentangle and denoise: Tackling context misalignment for video moment retrieval [16.939535169282262]
Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内のビデオモーメントを見つけることを目的としている。本稿では,正確なモーダル・モーダル・コンテクスト・デノイング・ネットワーク(CDNet)を提案する。
論文参考訳（メタデータ） (2024-08-14T15:00:27Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Background-aware Moment Detection for Video Moment Retrieval [19.11524416308641]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。あいまいさのため、クエリは対応するモーメントの関連する詳細を完全にカバーしていない。背景認識型モーメント検出変換器(BM-DETR)を提案する。本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文参考訳（メタデータ） (2023-06-05T09:26:33Z)
Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文参考訳（メタデータ） (2023-05-25T15:26:13Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-03T01:33:26Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)
Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文参考訳（メタデータ） (2020-09-04T22:06:34Z)
Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2020-04-30T06:26:20Z)
Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文参考訳（メタデータ） (2020-04-16T08:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。