論文の概要: Mamba-OTR: a Mamba-based Solution for Online Take and Release Detection from Untrimmed Egocentric Video
- arxiv url: http://arxiv.org/abs/2507.16342v1
- Date: Tue, 22 Jul 2025 08:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.028568
- Title: Mamba-OTR: a Mamba-based Solution for Online Take and Release Detection from Untrimmed Egocentric Video
- Title(参考訳): Mamba-OTR:未編集エゴセントリックビデオからのオンラインテイク・リリース検出のためのマンバベースソリューション
- Authors: Alessandro Sebastiano Catinello, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: Mamba-OTRは、短いビデオクリップでトレーニングしながら、推論中に時間的再発を利用するように設計されている。
Mamba-OTRは、スライドウインドウ方式で動作する際に、注目すべきmp-mAP45.48を達成する。
我々は,今後の研究を支援するため,Mamba-OTRのソースコードを公開します。
- 参考スコア(独自算出の注目度): 57.805927523341516
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work tackles the problem of Online detection of Take and Release (OTR) of an object in untrimmed egocentric videos. This task is challenging due to severe label imbalance, with temporally sparse positive annotations, and the need for precise temporal predictions. Furthermore, methods need to be computationally efficient in order to be deployed in real-world online settings. To address these challenges, we propose Mamba-OTR, a model based on the Mamba architecture. Mamba-OTR is designed to exploit temporal recurrence during inference while being trained on short video clips. To address label imbalance, our training pipeline incorporates the focal loss and a novel regularization scheme that aligns model predictions with the evaluation metric. Extensive experiments on EPIC-KITCHENS-100, the comparisons with transformer-based approach, and the evaluation of different training and test schemes demonstrate the superiority of Mamba-OTR in both accuracy and efficiency. These finding are particularly evident when evaluating full-length videos or high frame-rate sequences, even when trained on short video snippets for computational convenience. The proposed Mamba-OTR achieves a noteworthy mp-mAP of 45.48 when operating in a sliding-window fashion, and 43.35 in streaming mode, versus the 20.32 of a vanilla transformer and 25.16 of a vanilla Mamba, thus providing a strong baseline for OTR. We will publicly release the source code of Mamba-OTR to support future research.
- Abstract(参考訳): この研究は、未編集のエゴセントリックビデオにおけるオブジェクトのテイク・アンド・リリース(OTR)のオンライン検出の問題に取り組む。
この課題は、厳密なラベルの不均衡、時間的に少ない正のアノテーション、正確な時間的予測の必要性により困難である。
さらに、実際のオンライン環境にデプロイするためには、メソッドを計算的に効率よく配置する必要がある。
これらの課題に対処するため,我々はMambaアーキテクチャに基づくモデルであるMamba-OTRを提案する。
Mamba-OTRは、短いビデオクリップでトレーニングしながら、推論中に時間的再発を利用するように設計されている。
ラベルの不均衡に対処するために、我々のトレーニングパイプラインは、焦点損失と、モデル予測と評価基準を整合させる新しい正規化スキームを組み込んだ。
EPIC-KITCHENS-100の広範囲な実験、トランスフォーマーベースのアプローチとの比較、および異なるトレーニングおよびテストスキームの評価は、精度と効率の両面で、Mamba-OTRの優位性を示している。
これらの発見は、計算の利便性のために短いビデオスニペットで訓練された場合でも、フル長のビデオや高いフレームレートシーケンスを評価する際に特に顕著である。
提案したMamba-OTRは、スライドウインドウ方式では45.48mp-mAP、ストリーミングモードでは43.35mp/mAP、バニラ変圧器では20.32、バニラでは25.16mp/m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_ m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m_m
我々は,今後の研究を支援するため,Mamba-OTRのソースコードを公開します。
関連論文リスト
- MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba-R: Vision Mamba ALSO Needs Registers [45.41648622999754]
ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
論文 参考訳(メタデータ) (2024-05-23T17:58:43Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。