論文の概要: TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection
- arxiv url: http://arxiv.org/abs/2401.02309v1
- Date: Thu, 4 Jan 2024 14:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:43:09.870624
- Title: TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection
- Title(参考訳): TR-DETR:ジョイントモーメント検索と光検出のためのタスク逆変換器
- Authors: Hao Sun, Mingyao Zhou, Wenjing Chen, Wei Xie
- Abstract要約: 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、非常に関連性の高い2つのタスクである。
MRとHDを共同で解くために、DETRベースのネットワークの構築にいくつかの方法が注がれている。
MRとHDの相反性を探索するDETR(TR-DETR)に基づくタスク相互変換器を提案する。
- 参考スコア(独自算出の注目度): 9.032057312774564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval (MR) and highlight detection (HD) based on natural
language queries are two highly related tasks, which aim to obtain relevant
moments within videos and highlight scores of each video clip. Recently,
several methods have been devoted to building DETR-based networks to solve both
MR and HD jointly. These methods simply add two separate task heads after
multi-modal feature extraction and feature interaction, achieving good
performance. Nevertheless, these approaches underutilize the reciprocal
relationship between two tasks. In this paper, we propose a task-reciprocal
transformer based on DETR (TR-DETR) that focuses on exploring the inherent
reciprocity between MR and HD. Specifically, a local-global multi-modal
alignment module is first built to align features from diverse modalities into
a shared latent space. Subsequently, a visual feature refinement is designed to
eliminate query-irrelevant information from visual features for modal
interaction. Finally, a task cooperation module is constructed to refine the
retrieval pipeline and the highlight score prediction process by utilizing the
reciprocity between MR and HD. Comprehensive experiments on QVHighlights,
Charades-STA and TVSum datasets demonstrate that TR-DETR outperforms existing
state-of-the-art methods. Codes are available at
\url{https://github.com/mingyao1120/TR-DETR}.
- Abstract(参考訳): 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオ内の関連モーメントを取得し、各ビデオクリップのスコアをハイライトすることを目的としている。
近年,mr と hd を共同で解決するために detr ベースのネットワークを構築する手法がいくつか提案されている。
これらのメソッドは、マルチモーダルな特徴抽出と機能インタラクションの後に2つのタスクヘッドを追加するだけで、パフォーマンスが向上する。
しかしながら、これらのアプローチは2つのタスク間の相互関係を弱めている。
本稿では,mr と hd の固有相互性を検討するために,detr (tr-detr) に基づくタスク逆変換器を提案する。
具体的には、局所的な多モードアライメントモジュールが最初に構築され、様々なモダリティの機能を共有潜在空間にアライメントする。
その後、視覚的特徴改善により、視覚的特徴からクエリ非関連情報を排除し、モーダルインタラクションを実現する。
最後に、mrとhdの相互性を利用して検索パイプラインとハイライトスコア予測プロセスを洗練させるタスク協調モジュールを構築する。
QVHighlights、Charades-STA、TVSumのデータセットに関する総合的な実験は、TR-DETRが既存の最先端手法よりも優れていることを示した。
コードは \url{https://github.com/mingyao1120/TR-DETR} で公開されている。
関連論文リスト
- Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection [7.864892339833315]
本稿では,共同モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-14T14:06:42Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MH-DETR: Video Moment and Highlight Detection with Cross-modal
Transformer [17.29632719667594]
映像モーメントとハイライト検出(MHD)に適したMH-DETR(Moment and Highlight Detection Transformer)を提案する。
単一モードエンコーダ内にシンプルだが効率的なプーリング演算子を導入し,グローバルなモード内コンテキストをキャプチャする。
時間的に整列したクロスモーダルな特徴を得るために,エンコーダとデコーダ間のプラグ・アンド・プレイ・クロスモーダルな相互作用モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-29T22:50:53Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - One Network to Solve Them All: A Sequential Multi-Task Joint Learning
Network Framework for MR Imaging Pipeline [12.684219884940056]
組み合わせたエンドツーエンドのパイプラインを訓練するために、連続的なマルチタスク共同学習ネットワークモデルが提案される。
提案手法は,再構成とセグメント化の両面から,他のSOTA手法よりも優れた性能を示すMBBデータセット上で検証されている。
論文 参考訳(メタデータ) (2021-05-14T05:55:27Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。