論文の概要: Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2404.09263v1
- Date: Sun, 14 Apr 2024 14:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:48:15.273786
- Title: Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection
- Title(参考訳): タスク駆動探索:共同モーメント検索とハイライト検出のためのデカップリングとタスク間フィードバック
- Authors: Jin Yang, Ping Wei, Huan Li, Ziyang Ren,
- Abstract要約: 本稿では,共同モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
- 参考スコア(独自算出の注目度): 7.864892339833315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval and highlight detection are two highly valuable tasks in video understanding, but until recently they have been jointly studied. Although existing studies have made impressive advancement recently, they predominantly follow the data-driven bottom-up paradigm. Such paradigm overlooks task-specific and inter-task effects, resulting in poor model performance. In this paper, we propose a novel task-driven top-down framework TaskWeave for joint moment retrieval and highlight detection. The framework introduces a task-decoupled unit to capture task-specific and common representations. To investigate the interplay between the two tasks, we propose an inter-task feedback mechanism, which transforms the results of one task as guiding masks to assist the other task. Different from existing methods, we present a task-dependent joint loss function to optimize the model. Comprehensive experiments and in-depth ablation studies on QVHighlights, TVSum, and Charades-STA datasets corroborate the effectiveness and flexibility of the proposed framework. Codes are available at https://github.com/EdenGabriel/TaskWeave.
- Abstract(参考訳): ビデオモーメント検索とハイライト検出は、ビデオ理解において非常に価値のある2つのタスクであるが、最近まで共同で研究されてきた。
既存の研究は近年顕著な進歩を遂げているが、主にデータ駆動ボトムアップパラダイムに従っている。
このようなパラダイムはタスク固有の効果とタスク間効果を見落とし、結果としてモデルパフォーマンスが低下する。
本稿では,協調モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークTaskWeaveを提案する。
このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。
2つのタスク間の相互作用を調べるために,タスク間のフィードバック機構を提案する。
既存の手法とは違って,モデル最適化のためのタスク依存型共同損失関数を提案する。
QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。
コードはhttps://github.com/EdenGabriel/TaskWeave.comで入手できる。
関連論文リスト
- Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。
提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。
実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-08-01T03:06:56Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。