論文の概要: Multi-task Learning with Extended Temporal Shift Module for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2512.11189v1
- Date: Fri, 12 Dec 2025 00:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.607237
- Title: Multi-task Learning with Extended Temporal Shift Module for Temporal Action Localization
- Title(参考訳): 時間的行動局所化のための拡張時間シフトモジュールによるマルチタスク学習
- Authors: Anh-Kiet Duong, Petra Gomez-Krämer,
- Abstract要約: 我々は,マルチパースペクティブかつマルチモーダルなビデオ設定における時間的アクションローカライゼーション(TAL)に焦点を当てたBinEgo-360 Challengeを提案する。
我々のアプローチはTSM(Temporal Shift Module)上に構築されており、背景クラスを導入し、固定長の非重複区間を分類することでTALを扱うように拡張しています。
本手法は,複数タスク学習,効率的なバックボーン,および TAL のアンサンブル学習の有効性を実証し,初期ラウンドと拡張ラウンドの両方で第1位に位置づけた。
- 参考スコア(独自算出の注目度): 1.38120109831448
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present our solution to the BinEgo-360 Challenge at ICCV 2025, which focuses on temporal action localization (TAL) in multi-perspective and multi-modal video settings. The challenge provides a dataset containing panoramic, third-person, and egocentric recordings, annotated with fine-grained action classes. Our approach is built on the Temporal Shift Module (TSM), which we extend to handle TAL by introducing a background class and classifying fixed-length non-overlapping intervals. We employ a multi-task learning framework that jointly optimizes for scene classification and TAL, leveraging contextual cues between actions and environments. Finally, we integrate multiple models through a weighted ensemble strategy, which improves robustness and consistency of predictions. Our method is ranked first in both the initial and extended rounds of the competition, demonstrating the effectiveness of combining multi-task learning, an efficient backbone, and ensemble learning for TAL.
- Abstract(参考訳): ICCV 2025のBinEgo-360 Challengeでは,マルチパースペクティブ・マルチモーダル・ビデオ・セッティングにおける時間的アクション・ローカライゼーション(TAL)に焦点を当てたソリューションを提案する。
この課題は、パノラマ、サードパーソン、エゴセントリックな記録を含むデータセットを提供する。
我々のアプローチはTSM(Temporal Shift Module)上に構築されており、背景クラスを導入し、固定長の非重複区間を分類することでTALを扱うように拡張しています。
我々は、シーン分類とTALを協調的に最適化するマルチタスク学習フレームワークを採用し、行動と環境間の文脈的手がかりを活用する。
最後に、重み付きアンサンブル戦略により複数のモデルを統合することにより、予測の堅牢性と一貫性を向上させる。
本手法は,複数タスク学習,効率的なバックボーン,および TAL のアンサンブル学習の有効性を実証し,初期ラウンドと拡張ラウンドの両方で第1位に位置づけた。
関連論文リスト
- OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2025-06-22T16:12:27Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - Action Recognition Using Temporal Shift Module and Ensemble Learning [0.0]
本稿では,aclICPR 2024におけるマルチモーダル視覚パターン認識ワークショップの一環として,マルチモーダル行動認識チャレンジ(Multi-Modal Action Recognition Challenge)のファーストランクソリューションを提案する。
このコンペティションは、マルチモーダルソースから収集された20のアクションクラスの多様なデータセットを使用して、人間の行動を認識することを目的としている。
提案手法は,20クラスにまたがる人的行動の認識において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-29T10:36:55Z) - The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 [27.30100635072298]
TALは、ビデオシーケンスを通して特定の時間間隔内でのアクションの識別と分類に焦点を当てている。
我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張することにより、データ拡張手法を採用する。
特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。
論文 参考訳(メタデータ) (2024-10-08T01:07:21Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。