Fugu-MT 論文翻訳(概要): MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

論文の概要: MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

arxiv url: http://arxiv.org/abs/2411.15459v1
Date: Sat, 23 Nov 2024 05:31:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.424984
Title: MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking
Title（参考訳）: MambaVLT:視覚言語追跡のための時間発展型マルチモーダル状態空間モデル
Authors: Xinqi Liu, Li Zhou, Zikun Zhou, Jianqiu Chen, Zhenyu He,
Abstract要約: 本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
参考スコア（独自算出の注目度）: 8.696516368633143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The vision-language tracking task aims to perform object tracking based on various modality references. Existing Transformer-based vision-language tracking methods have made remarkable progress by leveraging the global modeling ability of self-attention. However, current approaches still face challenges in effectively exploiting the temporal information and dynamically updating reference features during tracking. Recently, the State Space Model (SSM), known as Mamba, has shown astonishing ability in efficient long-sequence modeling. Particularly, its state space evolving process demonstrates promising capabilities in memorizing multimodal temporal information with linear complexity. Witnessing its success, we propose a Mamba-based vision-language tracking model to exploit its state space evolving ability in temporal space for robust multimodal tracking, dubbed MambaVLT. In particular, our approach mainly integrates a time-evolving hybrid state space block and a selective locality enhancement block, to capture contextual information for multimodal modeling and adaptive reference feature update. Besides, we introduce a modality-selection module that dynamically adjusts the weighting between visual and language references, mitigating potential ambiguities from either reference type. Extensive experimental results show that our method performs favorably against state-of-the-art trackers across diverse benchmarks.
Abstract（参考訳）: 視覚言語追跡タスクは、様々なモダリティ参照に基づいてオブジェクト追跡を行うことを目的としている。既存のトランスフォーマーに基づく視覚言語追跡手法は, 自己注意のグローバルなモデリング能力を活用することで, 顕著な進歩を遂げている。しかしながら、現在のアプローチでは、時間的情報を有効に活用し、トラッキング中の参照機能を動的に更新する上で、依然として課題に直面している。近年、Mambaとして知られる状態空間モデル(SSM)は、効率的な長周期モデリングにおいて驚くべき能力を示している。特に、その状態空間の進化過程は、線形複雑度で多モーダル時間情報を記憶する有望な能力を示す。本研究は,マンバをベースとした視覚言語追跡モデルであり,時間空間における状態空間の進化能力を利用して,マンバVLTと呼ばれる頑健なマルチモーダルトラッキングを実現する。特に,本手法は時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,マルチモーダルモデリングと適応参照特徴更新のためのコンテキスト情報を取得する。さらに、視覚的参照と言語参照の重み付けを動的に調整し、どちらの参照型からも潜在的な曖昧さを緩和するモダリティ選択モジュールを導入する。実験結果から,本手法は様々なベンチマークにおいて,最先端トラッカーに対して良好に動作することが示された。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文参考訳（メタデータ） (2024-12-20T09:10:17Z)
Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。 GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-10-17T03:56:12Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文参考訳（メタデータ） (2024-05-28T07:24:56Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
Multi-Modality Spatio-Temporal Forecasting via Self-Supervised Learning [11.19088022423885]
そこで本稿では,MoSSL を利用した新しい学習フレームワークを提案する。 2つの実世界のMOSTデータセットの結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
論文参考訳（メタデータ） (2024-05-06T08:24:06Z)
Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion [14.14051929942914]
我々は,長距離文脈意味情報を特徴展開段階において抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。近年の状態空間モデル (SSM) に着想を得たBroad Mambaを提案する。提案手法は,長距離コンテキストをモデル化する場合に,Transformerの計算限界やメモリ制限を克服できることを示す。
論文参考訳（メタデータ） (2024-04-27T10:22:03Z)
Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文参考訳（メタデータ） (2024-01-18T12:45:25Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文参考訳（メタデータ） (2021-01-07T02:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。