論文の概要: Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images
- arxiv url: http://arxiv.org/abs/2410.08926v1
- Date: Fri, 11 Oct 2024 15:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:32:42.947879
- Title: Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images
- Title(参考訳): SAM 2によるゼロショット・プルパイル・セグメンテーション:1400万枚以上の画像のケーススタディ
- Authors: Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci,
- Abstract要約: 本稿では、視線推定と視線追跡技術の進歩において、視基盤モデルSAM 2の変換可能性について検討する。
私たちはSAM 2を、VRセットアップやウェアラブルアイトラッカーを使用して記録された世界最大の統合データセットを含む、さまざまなデータセットから1400万以上のアイイメージでテストしました。
注目すべきは、瞳孔分割タスクにおいてSAM 2は、目の画像のみに基づいて訓練されたドメイン固有モデルのパフォーマンスと一致し、微調整なしで、最大93%の得点を達成していることである。
- 参考スコア(独自算出の注目度): 8.529233820032678
- License:
- Abstract: We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world's largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.
- Abstract(参考訳): 本稿では、視線推定と視線追跡技術の進歩において、視基盤モデルSAM 2の変換可能性について検討する。
アノテーションの時間を大幅に短縮し、デプロイの容易さを通じて技術的な障壁を減らし、セグメンテーションの精度を高めることにより、SAM 2は研究者や実践者が直面する重要な課題に対処する。
ゼロショットセグメンテーション機能を利用すると、ユーザ入力が最小限で、ビデオ毎のワンクリックで、仮想現実(virtual reality)セットアップや、ウェアラブルアイトラッカーを使用して記録された世界最大の統合データセットを含む、さまざまなデータセットから1400万以上のアイイメージに対してSAM 2をテストしました。
注目すべきは、瞳孔分割タスクにおいてSAM 2は、目の画像のみに基づいて訓練されたドメイン固有モデルのパフォーマンスと一致し、微調整なしで、最大93%の得点を達成していることである。
さらに、これらの広く使われているデータセットに対して、コードとセグメンテーションマスクを提供し、さらなる研究を促進する。
関連論文リスト
- Multi-view Remote Sensing Image Segmentation With SAM priors [15.123894196919972]
リモートセンシングにおけるマルチビューセグメンテーションは、シーン内の様々な視点から画像を分割することを目指している。
近年の手法では、インプシットニューラルネットワーク(INF)から抽出した3次元情報を活用し、複数のビューにまたがって結果の整合性を高めている。
本稿では,視覚基盤モデル-Segment Anything (SAM) の先行を INF に注入し,限られたトレーニングデータ量でより良い結果を得る方法を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:57:41Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - A SAM-guided Two-stream Lightweight Model for Anomaly Detection [50.28310943263051]
我々は、教師なし異常検出(STLM)のためのSAM誘導2ストリーム軽量モデルを提案する。
MVTec ADベンチマークを用いて行った実験により,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,最先端の手法と効果的に競合することが示された。
論文 参考訳(メタデータ) (2024-02-29T13:29:10Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in
Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and
More [13.047310918166762]
ドメイン固有の情報や視覚的プロンプトを,単純で効果的なアダプタを用いてセグメント化ネットワークに組み込んだtextbfSAM-Adapterを提案する。
タスク固有のネットワークモデルよりも優れていて、テストしたタスクで最先端のパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-18T17:38:54Z) - Segment Anything [108.16489338211093]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。
このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。
多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文 参考訳(メタデータ) (2023-04-05T17:59:46Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。