論文の概要: LF Tracy: A Unified Single-Pipeline Approach for Salient Object
Detection in Light Field Cameras
- arxiv url: http://arxiv.org/abs/2401.16712v1
- Date: Tue, 30 Jan 2024 03:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:19:12.325992
- Title: LF Tracy: A Unified Single-Pipeline Approach for Salient Object
Detection in Light Field Cameras
- Title(参考訳): lf tracy:光電界カメラにおけるsalient object detectionのための単一管路の統一的アプローチ
- Authors: Fei Teng, Jiaming Zhang, Jiawei Liu, Kunyu Peng, Xina Cheng, Zhiyong
Li, Kailun Yang
- Abstract要約: 本稿では,SOD(Salient Object Detection)を強化するために光場データに適応する効率的なパラダイムを提案する。
わずか28.9Mのパラメータしか利用せず、RGB画像を用いた場合と比較して3Mのパラメータを追加して10%の精度向上を実現し、LF画像を使用した場合の86%のバックボーンアップを実現している。
- 参考スコア(独自算出の注目度): 22.288764512594433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the rich information extracted from light field (LF) cameras is
instrumental for dense prediction tasks. However, adapting light field data to
enhance Salient Object Detection (SOD) still follows the traditional RGB
methods and remains under-explored in the community. Previous approaches
predominantly employ a custom two-stream design to discover the implicit
angular feature within light field cameras, leading to significant information
isolation between different LF representations. In this study, we propose an
efficient paradigm (LF Tracy) to address this limitation. We eschew the
conventional specialized fusion and decoder architecture for a dual-stream
backbone in favor of a unified, single-pipeline approach. This comprises
firstly a simple yet effective data augmentation strategy called MixLD to
bridge the connection of spatial, depth, and implicit angular information under
different LF representations. A highly efficient information aggregation (IA)
module is then introduced to boost asymmetric feature-wise information fusion.
Owing to this innovative approach, our model surpasses the existing
state-of-the-art methods, particularly demonstrating a 23% improvement over
previous results on the latest large-scale PKU dataset. By utilizing only 28.9M
parameters, the model achieves a 10% increase in accuracy with 3M additional
parameters compared to its backbone using RGB images and an 86% rise to its
backbone using LF images. The source code will be made publicly available at
https://github.com/FeiBryantkit/LF-Tracy.
- Abstract(参考訳): light field (lf)カメラから抽出された豊富な情報を活用することは、密集した予測タスクに役立つ。
しかし、Salient Object Detection (SOD) を強化するために光電場データを適用することは、従来のRGB法に引き続き従い、コミュニティでは未探索のままである。
従来のアプローチでは、主に光界カメラ内の暗黙の角状特徴を発見するためにカスタムな2ストリーム設計を採用しており、異なるLF表現間で重要な情報分離をもたらしている。
本研究では,この制限に対処するための効率的なパラダイム(LF Tracy)を提案する。
従来の特殊な融合とデコーダのアーキテクチャを両ストリームバックボーンに設計し,単一パイプライン方式を採用する。
これはまず、異なるLF表現の下で空間、深さ、暗黙の角情報の接続をブリッジする、MixLDと呼ばれるシンプルで効果的なデータ拡張戦略を含む。
そして、非対称な特徴情報融合を促進するために、高効率な情報集約(IA)モジュールを導入する。
この革新的なアプローチにより、我々のモデルは既存の最先端の手法を超え、特に最新の大規模PKUデータセットの以前の結果よりも23%改善されたことを示す。
わずか28.9Mのパラメータしか利用せず、RGB画像を用いた場合に比べて3Mのパラメータを追加して10%の精度向上を実現し、LF画像を使用した場合の86%のバックボーンアップを実現している。
ソースコードはhttps://github.com/FeiBryantkit/LF-Tracyで公開されている。
関連論文リスト
- OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic
Segmentation [51.739401680890325]
光界カメラのための新しいパラダイムOmni-Aperture Fusion Model (OAFuser)を提案する。
OAFuserは、サブ開口画像から角情報を発見し、意味的に一貫性のある結果を生成する。
提案するOAFuserは,UrbanLF-RealおよびSynデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-28T14:43:27Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。