Fugu-MT 論文翻訳(概要): Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images

論文の概要: Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images

arxiv url: http://arxiv.org/abs/2410.08926v1
Date: Fri, 11 Oct 2024 15:50:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 21:06:06.606299
Title: Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images
Title（参考訳）: SAM 2によるゼロショット・プルパイル・セグメンテーション:1400万枚以上の画像のケーススタディ
Authors: Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci,
Abstract要約: 本稿では、視線推定と視線追跡技術の進歩において、視基盤モデルSAM 2の変換可能性について検討する。私たちはSAM 2を、VRセットアップやウェアラブルアイトラッカーを使用して記録された世界最大の統合データセットを含む、さまざまなデータセットから1400万以上のアイイメージでテストしました。注目すべきは、瞳孔分割タスクにおいてSAM 2は、目の画像のみに基づいて訓練されたドメイン固有モデルのパフォーマンスと一致し、微調整なしで、最大93%の得点を達成していることである。
参考スコア（独自算出の注目度）: 8.529233820032678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world's largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.
Abstract（参考訳）: 本稿では、視線推定と視線追跡技術の進歩において、視基盤モデルSAM 2の変換可能性について検討する。アノテーションの時間を大幅に短縮し、デプロイの容易さを通じて技術的な障壁を減らし、セグメンテーションの精度を高めることにより、SAM 2は研究者や実践者が直面する重要な課題に対処する。ゼロショットセグメンテーション機能を利用すると、ユーザ入力が最小限で、ビデオ毎のワンクリックで、仮想現実(virtual reality)セットアップや、ウェアラブルアイトラッカーを使用して記録された世界最大の統合データセットを含む、さまざまなデータセットから1400万以上のアイイメージに対してSAM 2をテストしました。注目すべきは、瞳孔分割タスクにおいてSAM 2は、目の画像のみに基づいて訓練されたドメイン固有モデルのパフォーマンスと一致し、微調整なしで、最大93%の得点を達成していることである。さらに、これらの広く使われているデータセットに対して、コードとセグメンテーションマスクを提供し、さらなる研究を促進する。

関連論文リスト

Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images [48.76247995109632]
PTSAM法はパラメータ効率の良い微調整技術であるプロンプトチューニングを用いて,特定のタスクにSAMを適用する。以上の結果から,SAMのマスクデコーダのみのプロンプトチューニングが,最先端技術と同等の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-04-23T14:10:02Z)
RFMedSAM 2: Automatic Prompt Refinement for Enhanced Volumetric Medical Image Segmentation with SAM 2 [15.50695315680438]
Segment Anything Model 2 (SAM2)は、SAMを画像ドメインとビデオドメインの両方に拡張するプロンプト駆動基盤モデルである。しかしSAMと同様、SAM 2はバイナリマスクの出力、セマンティックラベルの推論ができないこと、ターゲットのオブジェクト領域の正確なプロンプトへの依存によって制限されている。我々は、カスタムの微調整アダプタを用いてSAM 2の上限値について検討し、BTCVデータセット上で92.30%のDice similarity Coefficient(DSC)を達成する。
論文参考訳（メタデータ） (2025-02-04T22:03:23Z)
Adaptive Prompt Learning with SAM for Few-shot Scanning Probe Microscope Image Segmentation [11.882111844381098]
Segment Anything Model (SAM) は自然シーン画像のイメージセグメンテーションにおいて強い性能を示した。 SAMの有効性は、SPM(Scanning Probe Microscope)画像のような特定の科学的領域に適用すると著しく低下する。本稿では,数ショットのSPM画像セグメンテーションに適したSAMフレームワークを用いたAdaptive Prompt Learningを提案する。
論文参考訳（メタデータ） (2024-10-16T13:38:01Z)
Underwater Camouflaged Object Tracking Meets Vision-Language SAM2 [60.47622353256502]
本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
論文参考訳（メタデータ） (2024-09-25T13:10:03Z)
From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。 SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。 SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文参考訳（メタデータ） (2024-08-12T17:17:35Z)
SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation [13.609341065893739]
本研究では,ロボット支援手術におけるSAM2のゼロショットセグメンテーション性能について,プロンプトに基づく検討を行った。 1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点プロンプトを初期フレームに適用する。ポイントプロンプトによる結果はSAMの能力よりも大幅に向上し、既存の未進展SOTAメソッドに近づいたり超えたりしている。
論文参考訳（メタデータ） (2024-08-08T17:08:57Z)
Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文参考訳（メタデータ） (2024-07-31T02:24:53Z)
Multi-view Remote Sensing Image Segmentation With SAM priors [15.123894196919972]
リモートセンシングにおけるマルチビューセグメンテーションは、シーン内の様々な視点から画像を分割することを目指している。近年の手法では、インプシットニューラルネットワーク(INF)から抽出した3次元情報を活用し、複数のビューにまたがって結果の整合性を高めている。本稿では,視覚基盤モデル-Segment Anything (SAM) の先行を INF に注入し,限られたトレーニングデータ量でより良い結果を得る方法を提案する。
論文参考訳（メタデータ） (2024-05-23T04:57:41Z)
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。約22,000のクラスを分類・認識できる。
論文参考訳（メタデータ） (2024-01-05T18:59:22Z)
Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文参考訳（メタデータ） (2023-11-14T11:05:08Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)
Segment Anything [108.16489338211093]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文参考訳（メタデータ） (2023-04-05T17:59:46Z)
Efficient Self-supervised Vision Transformers for Representation Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文参考訳（メタデータ） (2021-06-17T19:57:33Z)
Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文参考訳（メタデータ） (2021-04-01T06:47:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。