論文の概要: Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation
- arxiv url: http://arxiv.org/abs/2502.02763v2
- Date: Sat, 05 Jul 2025 12:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.21436
- Title: Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation
- Title(参考訳): 局所的に見る:効率的なセグメンテーションの基礎モデルとしてのオブジェクト中心視覚変換器
- Authors: Manuel Traub, Martin V. Butz,
- Abstract要約: 現在の最先端セグメンテーションモデルは、特定のオブジェクトにフォーカスする前に全画像をエンコードする。
本稿では,生物にインスパイアされたトップダウンアテンションを通してオブジェクトセグメンテーションを実現する,パラメータ効率のよい視覚モデルFLIPを紹介する。
FLIPセグメントは、既存のモデルに深刻な欠陥がある場合、非常に小さなオブジェクトでも正確に表現できることが示される。
- 参考スコア(独自算出の注目度): 3.5297361401370053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art segmentation models encode entire images before focusing on specific objects. As a result, they waste computational resources - particularly when small objects are to be segmented in high-resolution scenes. We introduce FLIP (Fovea-Like Input Patching), a parameter-efficient vision model that realizes object segmentation through biologically-inspired top-down attention. FLIP selectively samples multi-resolution patches centered on objects of interest from the input. As a result, it allocates high-resolution processing to object centers while maintaining coarser peripheral context. This off-grid, scale-invariant design enables FLIP to outperform META's Segment Anything models (SAM) by large margins: With more than 1000x fewer parameters, FLIP-Tiny (0.51M parameters) reaches a mean IoU of 78.24% while SAM-H reaches 75.41% IoU (641.1M parameters). FLIP-Large even achieves 80.33% mean IoU (96.6M parameters), still running about 6$\times$ faster than SAM-H. We evaluate on six benchmarks in total. In five established benchmarks (Hypersim, KITTI-360, OpenImages, COCO, LVIS) FLIP consistently outperforms SAM and various variants of it. In our novel ObjaScale dataset, which stress-tests scale invariance with objects ranging from 0.0001% up-to 25% of the image area, we show that FLIP segments even very small objects accurately, where existing models fail severely. FLIP opens new possibilities for real-time, object-centric vision applications and offers much higher energy efficiency. We believe that FLIP can act as a powerful foundation model, as it is very well-suited to track objects over time, for example, when being integrated into slot-based scene segmentation architectures.
- Abstract(参考訳): 現在の最先端セグメンテーションモデルは、特定のオブジェクトにフォーカスする前に全画像をエンコードする。
その結果、特に小さなオブジェクトが高解像度のシーンでセグメント化される場合、計算リソースを浪費する。
本稿では,生物にインスパイアされたトップダウンアテンションを通じてオブジェクトセグメンテーションを実現するパラメータ効率の高い視覚モデルであるFLIP(Fovea-like Input Patching)を紹介する。
FLIPは、入力から興味のあるオブジェクトを中心とした多解像度パッチを選択的にサンプリングする。
その結果、粗い周辺環境を維持しながら、オブジェクト中心に高分解能な処理を割り当てる。
FLIP-Tiny(0.51Mパラメータ)は平均IoUは78.24%、SAM-Hは75.41%IoU(641.1Mパラメータ)に達する。
FLIP-Large は平均 IoU (96.6M パラメータ) を 80.33% で達成し、SAM-H よりも約 6$\times$ で動作している。
合計6つのベンチマークを評価した。
確立された5つのベンチマーク(Hypersim、KITTI-360、OpenImages、COCO、LVIS)において、FLIPはSAMと様々な変種を一貫して上回っている。
画像領域の0.0001%から25%までのオブジェクトで応力-テストを行うObjaScaleデータセットでは、FLIPセグメントが非常に小さなオブジェクトでも正確にスケールでき、既存のモデルに深刻な障害があることを示す。
FLIPは、リアルタイムでオブジェクト中心の視覚アプリケーションのための新しい可能性を開き、エネルギー効率をはるかに高めている。
FLIPは、例えばスロットベースのシーンセグメンテーションアーキテクチャに統合される場合など、時間とともにオブジェクトを追跡するのに非常に適しているため、強力な基盤モデルとして機能すると考えています。
関連論文リスト
- Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection [12.417754433715903]
本稿では、インスタンスマスク機能を活用することで、時間的特徴集約を強化する新しいVOD手法であるFAIMを提案する。
YOLOXをベース検出器として使用するFAIMは、イメージネットVIDデータセットの87.9%のmAPを、1つの2080Ti GPU上で33 FPSで達成している。
論文 参考訳(メタデータ) (2024-12-06T10:12:10Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。