論文の概要: Unifying Light Field Perception with Field of Parallax
- arxiv url: http://arxiv.org/abs/2503.00747v1
- Date: Sun, 02 Mar 2025 05:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:54.317760
- Title: Unifying Light Field Perception with Field of Parallax
- Title(参考訳): パララックス場による光場知覚の統一
- Authors: Fei Teng, Buyin Deng, Boyuan Zheng, Kai Luo, Kunyu Peng, Jiaming Zhang, Kailun Yang,
- Abstract要約: Field of Parallax (FoP) は、異なるLF表現から共通の特徴を抽出し、フレキシブルで一貫した学習支援を提供する空間場である。
LFXフレームワークを導入し、任意のLF表現をシームレスに処理し、LFマルチタスクビジョンを統一する。
- 参考スコア(独自算出の注目度): 23.223849362755963
- License:
- Abstract: Field of Parallax (FoP)}, a spatial field that distills the common features from different LF representations to provide flexible and consistent support for multi-task learning. FoP is built upon three core features--projection difference, adjacency divergence, and contextual consistency--which are essential for cross-task adaptability. To implement FoP, we design a two-step angular adapter: the first step captures angular-specific differences, while the second step consolidates contextual consistency to ensure robust representation. Leveraging the FoP-based representation, we introduce the LFX framework, the first to handle arbitrary LF representations seamlessly, unifying LF multi-task vision. We evaluated LFX across three different tasks, achieving new state-of-the-art results, compared with previous task-specific architectures: 84.74% in mIoU for semantic segmentation on UrbanLF, 0.84% in AP for object detection on PKU, and 0.030 in MAE and 0.026 in MAE for salient object detection on Duftv2 and PKU, respectively. The source code will be made publicly available at https://github.com/warriordby/LFX.
- Abstract(参考訳): Field of Parallax (FoP)} は、異なるLF表現から共通の特徴を抽出し、マルチタスク学習のための柔軟で一貫したサポートを提供する空間場である。
FoPは,3つのコア機能 – 投影差,隣接分散,コンテキスト整合性 – の上に構築されている。
FoPを実装するために、2段階の角形アダプタを設計する。第1ステップは角形固有の違いを捉え、第2ステップはコンテキスト整合性を強化し、ロバストな表現を保証する。
FoPベースの表現を活用することで、最初に任意のLF表現をシームレスに処理し、LFマルチタスクビジョンを統一するLFXフレームワークを導入します。
従来のタスク固有のアーキテクチャと比較すると,UrbanLFのセマンティックセグメンテーションでは84.74%,PKUのオブジェクト検出では0.84%,MAEでは0.030,Duftv2とPKUでは0.026であった。
ソースコードはhttps://github.com/warriordby/LFXで公開されている。
関連論文リスト
- Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - UniPLV: Towards Label-Efficient Open-World 3D Scene Understanding by Regional Visual Language Supervision [7.655966831418489]
オープンワールド3Dシーン理解のための学習パラダイムとして,ポイントクラウド,イメージ,テキストを統一する強力なフレームワークであるUniPLVを提案する。
論文 参考訳(メタデータ) (2024-12-24T03:40:05Z) - SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection [14.137208879448389]
LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
論文 参考訳(メタデータ) (2024-06-16T12:11:44Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Joint Forecasting of Features and Feature Motion for Dense Semantic
Future Prediction [0.0]
アプローチは、F2M(Feature-to-motion)とF2F(Feature-to-Feature)の2つのモジュールで構成される。
複合F2MFアプローチは、タスクに依存しない方法でノベルティの効果から運動の効果を分離する。
セマンティックセグメンテーション、インスタンスレベルのセグメンテーション、パンオプティカルセグメンテーションの3つの高密度予測タスクの実験を行います。
論文 参考訳(メタデータ) (2021-01-26T13:30:44Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。