論文の概要: Segment Anything in Light Fields for Real-Time Applications via Constrained Prompting
- arxiv url: http://arxiv.org/abs/2411.13840v1
- Date: Thu, 21 Nov 2024 05:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:13.741399
- Title: Segment Anything in Light Fields for Real-Time Applications via Constrained Prompting
- Title(参考訳): 拘束型プロンプティングによる実時間応用のための光分野のセグメンテーション
- Authors: Nikolai Goncharov, Donald G. Dansereau,
- Abstract要約: 本稿では, SAM 2 を光場領域に適応させる新しい光場分割法を提案する。
本手法は,光界領域の制約を生かし,高品質で視界に一貫性のある光界マスクを作製し,SAM2ビデオトラッキングベースラインを7倍高速に動作させる。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License:
- Abstract: Segmented light field images can serve as a powerful representation in many of computer vision tasks exploiting geometry and appearance of objects, such as object pose tracking. In the light field domain, segmentation presents an additional objective of recognizing the same segment through all the views. Segment Anything Model 2 (SAM 2) allows producing semantically meaningful segments for monocular images and videos. However, using SAM 2 directly on light fields is highly ineffective due to unexploited constraints. In this work, we present a novel light field segmentation method that adapts SAM 2 to the light field domain without retraining or modifying the model. By utilizing the light field domain constraints, the method produces high quality and view-consistent light field masks, outperforming the SAM 2 video tracking baseline and working 7 times faster, with a real-time speed. We achieve this by exploiting the epipolar geometry cues to propagate the masks between the views, probing the SAM 2 latent space to estimate their occlusion, and further prompting SAM 2 for their refinement.
- Abstract(参考訳): セグメンテッド・ライトフィールド・イメージは、オブジェクトのポーズトラッキングのような形状や外観を利用する多くのコンピュータビジョンタスクにおいて、強力な表現として機能する。
光場領域では、セグメンテーションは全てのビューを通して同じセグメンテーションを認識するという追加の目的を示す。
Segment Anything Model 2 (SAM2) は、モノクロ画像やビデオのための意味論的意味のあるセグメントを作成することができる。
しかし、光場に直接SAM 2を用いることは、未発見の制約のため、非常に効果が低い。
本研究では, SAM 2 を光場領域に適応させる新しい光場分割法を提案する。
本手法は,光界領域の制約を生かし,高品質で視界に一貫性のある光界マスクを作製し,SAM2ビデオトラッキングベースラインを7倍高速に動作させる。
これを実現するために,ビュー間のマスクの伝搬にエピポーラ幾何学的手がかりを利用し,SAM2潜在空間を推定し,さらにSAM2を改良させる。
関連論文リスト
- Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images [8.529233820032678]
本稿では、視線推定と視線追跡技術の進歩において、視基盤モデルSAM 2の変換可能性について検討する。
私たちはSAM 2を、VRセットアップやウェアラブルアイトラッカーを使用して記録された世界最大の統合データセットを含む、さまざまなデータセットから1400万以上のアイイメージでテストしました。
注目すべきは、瞳孔分割タスクにおいてSAM 2は、目の画像のみに基づいて訓練されたドメイン固有モデルのパフォーマンスと一致し、微調整なしで、最大93%の得点を達成していることである。
論文 参考訳(メタデータ) (2024-10-11T15:50:53Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 [10.751277821864916]
報告によると、SAM2のオートモードでのプロンプトなしで、画像内の異なるオブジェクトを知覚する能力は低下している。
具体的には, この性能低下を評価するために, カモフラージュされた物体検出の課題を用いる。
論文 参考訳(メタデータ) (2024-07-31T13:32:10Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Beyond Subspace Isolation: Many-to-Many Transformer for Light Field
Image Super-resolution [5.277207972856879]
本稿では,光フィールド画像超解像処理のための新しいM2MTを提案する。
M2MTは、自己認識機構を実行する前に、空間部分空間内の角情報を集約する。
光フィールド画像内の全てのサブアパーチャ画像全体への完全なアクセスを可能にする。
論文 参考訳(メタデータ) (2024-01-01T12:48:23Z) - Learning Light Field Angular Super-Resolution via a Geometry-Aware
Network [101.59693839475783]
そこで本研究では,広いベースラインを持つスパースサンプリング光場を超解き放つことを目的とした,エンド・ツー・エンドの学習ベースアプローチを提案する。
提案手法は,実行時間48$times$を節約しつつ,2番目のベストメソッドのPSNRを平均2dBまで改善する。
論文 参考訳(メタデータ) (2020-02-26T02:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。