論文の概要: Foveated Instance Segmentation
- arxiv url: http://arxiv.org/abs/2503.21854v1
- Date: Thu, 27 Mar 2025 17:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:26.567903
- Title: Foveated Instance Segmentation
- Title(参考訳): Foveated Instance Segmentation
- Authors: Hongyi Zeng, Wenxuan Liu, Tianhua Xia, Jinhui Chen, Ziyun Li, Sai Qian Zhang,
- Abstract要約: 拡張現実と仮想現実(AR/VR)にとってインスタンスセグメンテーションは不可欠である
FovealSegは、リアルタイムのユーザ視線データを活用して、興味のあるインスタンスにのみインスタンスセグメンテーションを実行するフレームワークである。
FSNetはADE20Kで0.56、LVISで0.54のIoUを達成した。
- 参考スコア(独自算出の注目度): 9.683112789665008
- License:
- Abstract: Instance segmentation is essential for augmented reality and virtual reality (AR/VR) as it enables precise object recognition and interaction, enhancing the integration of virtual and real-world elements for an immersive experience. However, the high computational overhead of segmentation limits its application on resource-constrained AR/VR devices, causing large processing latency and degrading user experience. In contrast to conventional scenarios, AR/VR users typically focus on only a few regions within their field of view before shifting perspective, allowing segmentation to be concentrated on gaze-specific areas. This insight drives the need for efficient segmentation methods that prioritize processing instance of interest, reducing computational load and enhancing real-time performance. In this paper, we present a foveated instance segmentation (FovealSeg) framework that leverages real-time user gaze data to perform instance segmentation exclusively on instance of interest, resulting in substantial computational savings. Evaluation results show that FSNet achieves an IoU of 0.56 on ADE20K and 0.54 on LVIS, notably outperforming the baseline. The code is available at https://github.com/SAI-
- Abstract(参考訳): インスタンスのセグメンテーションは、拡張現実と仮想現実(AR/VR)にとって不可欠である。
しかし、セグメンテーションの計算オーバーヘッドが高いため、リソース制限されたAR/VRデバイスへの適用が制限され、処理遅延が大きくなり、ユーザエクスペリエンスが低下する。
従来のシナリオとは対照的に、AR/VRユーザーは視野をシフトする前に視野内の少数の領域だけに集中し、セグメンテーションは視線固有の領域に集中できる。
この洞察は、関心事の処理インスタンスを優先し、計算負荷を減らし、リアルタイムのパフォーマンスを向上させる効率的なセグメンテーション手法の必要性を喚起する。
本稿では、リアルタイムのユーザ視線データを利用して、興味のあるインスタンスにのみインスタンスセグメンテーションを行うFovealSeg(FovealSeg)フレームワークを提案する。
評価の結果、FSNetはADE20Kで0.56、LVISで0.54のIoUを達成した。
コードはhttps://github.com/SAI-で公開されている。
関連論文リスト
- TraceNet: Segment one thing efficiently [12.621208412232733]
本稿では,ユーザが選択した単一インスタンスを肯定的なタップで分割する,ワンタップ駆動の単一インスタンスセグメンテーションタスクを提案する。
選択したインスタンスを受容的フィールドトレースによって明示的に特定するTraceNetを提案する。
我々は、例えばIoU平均におけるTraceNetの性能と、ユーザーがタップした領域の比率を、高品質なシングルインスタンスマスクで評価する。
論文 参考訳(メタデータ) (2024-06-21T05:46:46Z) - Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - ASAP: Accurate semantic segmentation for real time performance [3.5327983932835165]
異なるノルムを持つ特徴融合法(FFDN)を提案する。
FFDNは、自己注意の前に多層スケールと垂直プールモジュールの豊富なグローバルコンテキストを利用する。
73.1のunion(mIoU)と191のFrame Per Second(FPS)の平均相互作用は、Cityscapesテストデータセットの最先端と同等の結果である。
論文 参考訳(メタデータ) (2022-10-04T02:35:53Z) - On Efficient Real-Time Semantic Segmentation: A Survey [12.404169549562523]
我々は、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルで、このミスアライメントに対処することを目的とした作業について検討する。
我々は,一貫したハードウェアおよびソフトウェア構成下で,議論されたモデルの推論速度を評価する。
実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。
論文 参考訳(メタデータ) (2022-06-17T08:00:27Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。