論文の概要: MirrorMamba: Towards Scalable and Robust Mirror Detection in Videos
- arxiv url: http://arxiv.org/abs/2511.06716v1
- Date: Mon, 10 Nov 2025 05:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.086148
- Title: MirrorMamba: Towards Scalable and Robust Mirror Detection in Videos
- Title(参考訳): MirrorMamba:ビデオにおけるスケーラブルでロバストなミラー検出を目指して
- Authors: Rui Song, Jiaying Lin, Rynson W. H. Lau,
- Abstract要約: 我々はMirrorMambaと呼ばれる新しい有効でスケーラブルなビデオミラー検出手法を提案する。
提案手法では,様々な条件に適応し,知覚深度,対応性,光学的手法を取り入れた。
特に、この研究は、ミラー検出の分野におけるMambaベースのアーキテクチャの初めての成功例である。
- 参考スコア(独自算出の注目度): 64.87702843502889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video mirror detection has received significant research attention, yet existing methods suffer from limited performance and robustness. These approaches often over-rely on single, unreliable dynamic features, and are typically built on CNNs with limited receptive fields or Transformers with quadratic computational complexity. To address these limitations, we propose a new effective and scalable video mirror detection method, called MirrorMamba. Our approach leverages multiple cues to adapt to diverse conditions, incorporating perceived depth, correspondence and optical. We also introduce an innovative Mamba-based Multidirection Correspondence Extractor, which benefits from the global receptive field and linear complexity of the emerging Mamba spatial state model to effectively capture correspondence properties. Additionally, we design a Mamba-based layer-wise boundary enforcement decoder to resolve the unclear boundary caused by the blurred depth map. Notably, this work marks the first successful application of the Mamba-based architecture in the field of mirror detection. Extensive experiments demonstrate that our method outperforms existing state-of-the-art approaches for video mirror detection on the benchmark datasets. Furthermore, on the most challenging and representative image-based mirror detection dataset, our approach achieves state-of-the-art performance, proving its robustness and generalizability.
- Abstract(参考訳): ビデオミラー検出は研究の注目を集めているが、既存の手法では性能と堅牢性が制限されている。
これらのアプローチは、単一で信頼性の低い動的特徴に過度に頼り、典型的には、限定的な受容場を持つCNNや、二次的な計算複雑性を持つトランスフォーマー上に構築される。
これらの制約に対処するため、MirrorMambaと呼ばれる、効果的でスケーラブルなビデオミラー検出手法を提案する。
提案手法では,様々な条件に適応し,知覚深度,対応性,光学的手法を取り入れた。
また,グローバルな受容場と新しいマンバ空間状態モデルの線形複雑化を活かし,対応特性を効果的に捉えた,革新的マンバ型マルチ指向対応エクストラクタを導入する。
さらに,ムンバをベースとした層幅境界法デコーダを設計し,ぼやけた深度マップによって生じる不明瞭な境界を解消する。
特に、この研究は、ミラー検出の分野におけるMambaベースのアーキテクチャの初めての成功例である。
大規模な実験により,提案手法は,ベンチマークデータセット上での映像ミラー検出において,既存の最先端手法よりも優れていることが示された。
さらに、最も困難で代表的な画像ベースミラー検出データセットを用いて、その堅牢性と一般化性を証明し、最先端の性能を実現する。
関連論文リスト
- MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration [53.180212987726556]
動作回復ベンチマークの限界に対処する2つの新しいマルチタスクデータセットであるMIOReとVAR-MIOReを紹介する。
私たちのデータセットは、複雑なエゴカメラの動き、動的マルチオブジェクト相互作用、深さ依存のぼかし効果など、幅広い動きシナリオを捉えています。
論文 参考訳(メタデータ) (2025-09-08T15:34:31Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos [11.532574301455854]
マルチフレームビデオオブジェクト検出のための高効率な手法を提案する。
我々の手法は、特に軽量モデルにおいて堅牢性を改善する。
我々はBOAT360ベンチマークデータセットを寄贈し、現実のシナリオに挑戦するマルチフレームビデオオブジェクト検出における将来の研究を支援する。
論文 参考訳(メタデータ) (2025-06-25T15:49:07Z) - Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook [46.65330450810048]
状態空間モデル(SSM)は、線形計算スケーリングとグローバルコンテキストモデリングを組み合わせたパラダイムシフトソリューションとして登場した。
本調査では,約120個のマンバを用いたリモートセンシング研究を体系的に分析し,マンバをベースとしたリモートセンシング手法の総合的なレビューを行った。
i)ビジョン・マンバのアーキテクチャの基礎原理、(ii)適応スキャン戦略やハイブリッドSSMの定式化のようなマイクロアーキテクチャの進歩、(iii)CNN-Transformer-Mambaハイブリッドや周波数領域適応、(iv)状態に対する厳密なベンチマークなど、マクロアーキテクチャの統合。
論文 参考訳(メタデータ) (2025-05-01T16:07:51Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - VADMamba: Exploring State Space Models for Fast Video Anomaly Detection [4.874215132369157]
VQ-Mamba Unet(VQ-MaU)フレームワークには、Vector Quantization(VQ)層と、Mambaベースの非負のVisual State Space(NVSS)ブロックが組み込まれている。
提案するVADMambaの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2025-03-27T05:38:12Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。