論文の概要: UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2404.04933v1
- Date: Sun, 7 Apr 2024 12:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:51:34.449036
- Title: UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection
- Title(参考訳): UniMD: モーメント検索と時間行動検出の統合を目指して
- Authors: Yingsen Zeng, Yujie Zhong, Chengjian Feng, Lin Ma,
- Abstract要約: 時間的行動検出(TAD)は、事前に定義されたアクションを検出することに焦点を当て、モーメント検索(MR)は、未トリミングビデオの中で、オープンな自然言語によって記述される事象を特定することを目的としている。
我々は,TADとMRの両方に対して統一モーメント検出(Unified Moment Detection, Unified Moment Detection, UniMD)と呼ばれる統一アーキテクチャを提案する。
TADのアクションやMRのイベントといった2つのタスクの入力を共通の埋め込み空間に変換し、2つの新しいクエリ依存デコーダを使用して、分類スコアと時間セグメントの均一な出力を生成する。
- 参考スコア(独自算出の注目度): 19.595956464166548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection (TAD) focuses on detecting pre-defined actions, while Moment Retrieval (MR) aims to identify the events described by open-ended natural language within untrimmed videos. Despite that they focus on different events, we observe they have a significant connection. For instance, most descriptions in MR involve multiple actions from TAD. In this paper, we aim to investigate the potential synergy between TAD and MR. Firstly, we propose a unified architecture, termed Unified Moment Detection (UniMD), for both TAD and MR. It transforms the inputs of the two tasks, namely actions for TAD or events for MR, into a common embedding space, and utilizes two novel query-dependent decoders to generate a uniform output of classification score and temporal segments. Secondly, we explore the efficacy of two task fusion learning approaches, pre-training and co-training, in order to enhance the mutual benefits between TAD and MR. Extensive experiments demonstrate that the proposed task fusion learning scheme enables the two tasks to help each other and outperform the separately trained counterparts. Impressively, UniMD achieves state-of-the-art results on three paired datasets Ego4D, Charades-STA, and ActivityNet. Our code will be released at https://github.com/yingsen1/UniMD.
- Abstract(参考訳): 時間的行動検出(TAD)は、事前に定義されたアクションを検出することに焦点を当て、モーメント検索(MR)は、未トリミングビデオの中で、オープンな自然言語によって記述される事象を特定することを目的としている。
異なるイベントに重点を置いているにも関わらず、大きなつながりがあることを私たちは観察しています。
例えば、MRのほとんどの記述はTADからの複数のアクションを含んでいる。
本稿では,TAD と MR のシナジーの可能性を検討することを目的としており,まず,TAD と MR の双方に対して統一的モーメント検出 (UniMD) と呼ばれる統一アーキテクチャを提案し,TAD の動作や MR のイベントといった2つのタスクの入力を共通の埋め込み空間に変換し,新しいクエリ依存デコーダを用いて分類スコアと時間セグメントの均一な出力を生成する。
第2に,TADとMRの相互利益を高めるために,事前学習と協調訓練という2つのタスク融合学習手法の有効性について検討した。
印象的なことに、UniMDは、Ego4D、Charades-STA、ActivityNetの3つのペアデータセットで最先端の結果を達成する。
私たちのコードはhttps://github.com/yingsen1/UniMDでリリースされます。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection [7.864892339833315]
本稿では,共同モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-14T14:06:42Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - A Unified Multi-task Learning Framework for Multi-goal Conversational
Recommender Systems [91.70511776167488]
MG-CRSには、ゴールプランニング、トピック予測、アイテムレコメンデーション、レスポンスジェネレーションの4つのタスクがある。
我々は,Unified MultI-goal conversational recommeNDerシステム,すなわちUniMINDを提案する。
マルチタスク学習能力を備えた統一モデルを実現するために,プロンプトに基づく学習戦略を検討した。
論文 参考訳(メタデータ) (2022-04-14T12:31:27Z) - MRI-based Multi-task Decoupling Learning for Alzheimer's Disease
Detection and MMSE Score Prediction: A Multi-site Validation [9.427540028148963]
MRIによる高齢者健診におけるアルツハイマー病(AD)の正確な検出とMMSEスコアの予測は重要な課題である
これら2つのタスクに関する従来の手法のほとんどは、シングルタスク学習に基づいており、それらの相関を考慮することは滅多にない。
本稿では,AD検出とMMSEスコア予測のためのMRIに基づくマルチタスク分離学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-02T09:19:18Z) - DARER: Dual-task Temporal Relational Recurrent Reasoning Network for
Joint Dialog Sentiment Classification and Act Recognition [39.76268402567324]
共同ダイアログ感情分類(DSC)と行動認識(DAR)の課題は、ダイアログの各発話に対する感情ラベルと行動ラベルを同時に予測することである。
我々は,テキスト予測レベルのインタラクションを統合することで,明示的な依存関係をモデル化する新しいフレームワークを提唱した。
そこで本研究では,まず,文脈,話者,時間に敏感な発話表現を生成するDARERという新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T05:19:18Z) - CTRN: Class-Temporal Relational Network for Action Detection [7.616556723260849]
エンドツーエンドネットワーク:CTRN(Class-Temporal Network)を導入する。
CTRNには、Transform Representation Module、Class-Temporal Module、G-classifierの3つの重要なコンポーネントが含まれている。
CTRを3つの高密度ラベル付きデータセット上で評価し、最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-26T08:15:47Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Learning End-to-End Action Interaction by Paired-Embedding Data
Augmentation [10.857323240766428]
新しいInteractive Action Translation (IAT)タスクは、ラベルなしのインタラクティブなペアからエンドツーエンドのアクションインタラクションを学ぶことを目的としている。
Paired-Embedding (PE) 法を提案する。
2つのデータセットの実験結果から,本手法の優れた効果と幅広い応用可能性が確認された。
論文 参考訳(メタデータ) (2020-07-16T01:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。