論文の概要: Robust Ego-Exo Correspondence with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2510.11417v1
- Date: Mon, 13 Oct 2025 13:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.388981
- Title: Robust Ego-Exo Correspondence with Long-Term Memory
- Title(参考訳): 長期記憶を伴うロバストエゴ・エクソ対応
- Authors: Yijun Hu, Bing Fan, Xin Gu, Haiqing Ren, Dongfang Liu, Heng Fan, Libo Zhang,
- Abstract要約: 我々は,エゴセントリックな視点とエゴセントリックな視点のオブジェクトレベル対応を確立するための新しい枠組みを提案する。
提案手法は,Mixture-of-Experts (MoE) にインスパイアされた,デュアルメモリアーキテクチャと適応型機能ルーティングモジュールを備える。
挑戦的なEgoExo4Dベンチマークの実験では、LM-EECと呼ばれる手法により、新しい最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 34.992180181705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing object-level correspondence between egocentric and exocentric views is essential for intelligent assistants to deliver precise and intuitive visual guidance. However, this task faces numerous challenges, including extreme viewpoint variations, occlusions, and the presence of small objects. Existing approaches usually borrow solutions from video object segmentation models, but still suffer from the aforementioned challenges. Recently, the Segment Anything Model 2 (SAM 2) has shown strong generalization capabilities and excellent performance in video object segmentation. Yet, when simply applied to the ego-exo correspondence (EEC) task, SAM 2 encounters severe difficulties due to ineffective ego-exo feature fusion and limited long-term memory capacity, especially for long videos. Addressing these problems, we propose a novel EEC framework based on SAM 2 with long-term memories by presenting a dual-memory architecture and an adaptive feature routing module inspired by Mixture-of-Experts (MoE). Compared to SAM 2, our approach features (i) a Memory-View MoE module which consists of a dual-branch routing mechanism to adaptively assign contribution weights to each expert feature along both channel and spatial dimensions, and (ii) a dual-memory bank system with a simple yet effective compression strategy to retain critical long-term information while eliminating redundancy. In the extensive experiments on the challenging EgoExo4D benchmark, our method, dubbed LM-EEC, achieves new state-of-the-art results and significantly outperforms existing methods and the SAM 2 baseline, showcasing its strong generalization across diverse scenarios. Our code and model are available at https://github.com/juneyeeHu/LM-EEC.
- Abstract(参考訳): エゴセントリックな視点とエゴセントリックな視点のオブジェクトレベルの対応を確立することは、インテリジェントアシスタントが正確で直感的な視覚的ガイダンスを提供するために不可欠である。
しかし、この課題は、極端な視点の変化、閉塞、小さな物体の存在など、多くの課題に直面している。
既存のアプローチは通常、ビデオオブジェクトのセグメンテーションモデルからソリューションを借りるが、それでも上記の課題に悩まされている。
近年,Segment Anything Model 2 (SAM2) は,映像オブジェクトのセグメンテーションにおいて,強力な一般化能力と優れた性能を示した。
しかし、エゴ・エゴ対応(EEC)タスクに単純に適用した場合、SAM 2は非効率なエゴ・エゴ機能融合と長期記憶能力の制限により深刻な困難に直面する。
これらの問題に対処するため,Mixture-of-Experts (MoE) にインスパイアされたデュアルメモリアーキテクチャと適応型特徴ルーティングモジュールを提示することにより,SAM 2をベースとした新しいEECフレームワークを提案する。
SAM 2と比較して、私たちのアプローチの特徴は
一 チャネル及び空間次元の両方に沿って各専門家特徴に対する寄与重み付けを適応的に割り当てる二重分岐ルーティング機構からなるメモリビューMOEモジュール
二 冗長性を排除しつつ、重要な長期情報を保持するための簡易かつ効果的な圧縮戦略を有する二重記憶型銀行システム。
挑戦的なEgoExo4Dベンチマークの広範な実験において、LM-EECと呼ばれる我々の手法は、新しい最先端の結果を達成し、既存の手法とSAM 2ベースラインを大幅に上回り、様々なシナリオにまたがる強力な一般化を示す。
私たちのコードとモデルはhttps://github.com/juneyeeHu/LM-EEC.comで公開されています。
関連論文リスト
- SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge [9.131199997701282]
大規模なビデオオブジェクトモジュール(LSVOS)は、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションという課題に対処する。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
論文 参考訳(メタデータ) (2025-09-22T08:30:34Z) - SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - Memory-Augmented SAM2 for Training-Free Surgical Video Segmentation [18.71772979219666]
トレーニング不要なビデオオブジェクトセグメンテーション戦略である Memory Augmented (MA)-SAM2 を導入する。
MA-SAM2は、複雑な楽器の動きから生じる閉塞や相互作用に対して強い堅牢性を示す。
MA-SAM2は追加のパラメータを導入せず、さらなるトレーニングも必要とせず、EndoVis 2017とEndoVis 2018データセットでSAM2よりも4.36%と6.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-13T11:05:25Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection [21.22536962888316]
モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-04-30T02:19:31Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。