論文の概要: CMTM: Cross-Modal Token Modulation for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2604.14630v1
- Date: Thu, 16 Apr 2026 05:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.736033
- Title: CMTM: Cross-Modal Token Modulation for Unsupervised Video Object Segmentation
- Title(参考訳): CMTM:教師なしビデオオブジェクトセグメンテーションのためのクロスモーダルトークン変調
- Authors: Inseok Jeon, Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Minseok Kang, Jungho Lee, Chaewon Park, Donghyeong Kim, Sangyoun Lee,
- Abstract要約: 本稿では,外見と動作手段の相互作用を強化するための新しいアプローチであるクロスモダリティトークン変調を導入する。
本手法は,各モダリティからトークン間の密接な接続を確立し,効率的なモダリティ内およびモダリティ間情報伝達を実現する。
提案手法は,すべての公開ベンチマークにおいて最先端のパフォーマンスを達成し,既存手法よりも優れる。
- 参考スコア(独自算出の注目度): 34.58388311597622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in unsupervised video object segmentation have highlighted the potential of two-stream architectures that integrate appearance and motion cues. However, fully leveraging these complementary sources of information requires effectively modeling their interdependencies. In this paper, we introduce cross-modality token modulation, a novel approach designed to strengthen the interaction between appearance and motion cues. Our method establishes dense connections between tokens from each modality, enabling efficient intra-modal and inter-modal information propagation through relation transformer blocks. To improve learning efficiency, we incorporate a token masking strategy that addresses the limitations of relying solely on increased model complexity. Our approach achieves state-of-the-art performance across all public benchmarks, outperforming existing methods.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーションの最近の進歩は、外観とモーションキューを統合した2ストリームアーキテクチャの可能性を強調している。
しかし、これらの補完的な情報源を十分に活用するには、相互依存を効果的にモデル化する必要がある。
本稿では,外見と動作手段の相互作用を強化するための新しいアプローチであるクロスモダリティトークン変調を導入する。
提案手法は,各モードからのトークン間の密接な接続を確立し,リレーショナルトランスフォーマブロックによる効率的なモーダル内およびモーダル間情報伝搬を実現する。
学習効率を向上させるために,モデルの複雑さの増加にのみ依存する制限に対処するトークンマスキング戦略を導入する。
提案手法は,すべての公開ベンチマークにおいて最先端のパフォーマンスを達成し,既存手法よりも優れる。
関連論文リスト
- Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection [61.36976558603528]
本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-14T07:13:28Z) - CrossWeaver: Cross-modal Weaving for Arbitrary-Modality Semantic Segmentation [2.9550741910325153]
CrossWeaverは、任意のモダリティセマンティックセグメンテーションのためのシンプルで効果的なフレームワークである。
コアはModality Interaction Block (MIB) で、エンコーダ内の選択的かつ信頼性に配慮した相互モーダルインタラクションを可能にする。
我々のフレームワークは、最小限の追加パラメータと、目に見えないモダリティの組み合わせへの強力な一般化により、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-04-03T10:32:02Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。