論文の概要: LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.06652v1
- Date: Mon, 11 Nov 2024 01:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:16.757738
- Title: LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection
- Title(参考訳): LFSamba:光電場能動物体検出のためのMambaとSAMの結婚
- Authors: Zhengyi Liu, Longzhen Wang, Xianyong Fang, Zhengzheng Tu, Linbo Wang,
- Abstract要約: 光界カメラは、リッチな空間幾何学情報を含むキャプチャされた多焦点画像を用いて3Dシーンを再構成することができる。
本研究では,LFSambaと呼ばれる多焦点光場画像に対する最先端のサルエント物体検出モデルを提案する。
- 参考スコア(独自算出の注目度): 9.787855464038673
- License:
- Abstract: A light field camera can reconstruct 3D scenes using captured multi-focus images that contain rich spatial geometric information, enhancing applications in stereoscopic photography, virtual reality, and robotic vision. In this work, a state-of-the-art salient object detection model for multi-focus light field images, called LFSamba, is introduced to emphasize four main insights: (a) Efficient feature extraction, where SAM is used to extract modality-aware discriminative features; (b) Inter-slice relation modeling, leveraging Mamba to capture long-range dependencies across multiple focal slices, thus extracting implicit depth cues; (c) Inter-modal relation modeling, utilizing Mamba to integrate all-focus and multi-focus images, enabling mutual enhancement; (d) Weakly supervised learning capability, developing a scribble annotation dataset from an existing pixel-level mask dataset, establishing the first scribble-supervised baseline for light field salient object detection.https://github.com/liuzywen/LFScribble
- Abstract(参考訳): 光界カメラは、リッチな空間幾何学情報を含むキャプチャーされた多焦点画像を用いて3Dシーンを再構成することができ、立体写真、バーチャルリアリティ、ロボットビジョンの応用性を高めることができる。
本研究では、LFSambaと呼ばれる多焦点光場画像に対する最先端のサルエント物体検出モデルを導入し、次の4つの主要な知見を強調した。
a) SAMがモダリティを意識した識別特徴の抽出に使用される効率的な特徴抽出
b)複数の焦点スライスにまたがる長距離依存関係を捉えるためにMambaを活用するスライス間関係モデリング
c) 相互強化を可能にする全焦点・複数焦点画像の統合にマンバを利用するモーダル間関係モデリング
(d)弱教師付き学習能力、既存の画素レベルのマスクデータセットからのスクリブル・アノテーション・データセットの開発、光場塩性物体検出のための最初のスクリブル・教師付きベースラインの構築。https://github.com/liuzywen/LFScribble
関連論文リスト
- Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation [48.828453331724965]
我々は,Omni-Aperture Fusion Model (OAFuser) を提案する。
提案したOAFuserは,すべての評価指標から4つのUrbanLFデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-28T14:43:27Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Dense Multiscale Feature Fusion Pyramid Networks for Object Detection in
UAV-Captured Images [0.09065034043031667]
本研究では,よりリッチな特徴を可能な限り得ることを目的とした,高密度多スケール特徴融合ピラミッドネットワーク(dmffpn)と呼ばれる新しい手法を提案する。
具体的には、密度の高い接続は、異なる畳み込み層からの表現を完全に活用するように設計されている。
VisDrone-DETと呼ばれるドローンベースのデータセットの実験は、我々の方法の競争力を示唆している。
論文 参考訳(メタデータ) (2020-12-19T10:05:31Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。