論文の概要: Eye image segmentation using visual and concept prompts with Segment Anything Model 3 (SAM3)
- arxiv url: http://arxiv.org/abs/2603.17715v1
- Date: Wed, 18 Mar 2026 13:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.724327
- Title: Eye image segmentation using visual and concept prompts with Segment Anything Model 3 (SAM3)
- Title(参考訳): Segment Anything Model 3 (SAM3) を用いた視覚的および概念的プロンプトによる眼像分割
- Authors: Diederick C. Niehorster, Marcus Nyström,
- Abstract要約: これまでの研究では、視覚基礎モデルでは視線画像のセグメンテーションにおけるゼロショット性能が期待できると報告されてきた。
本稿では,Segment Anything Modelの最新版 SAM3 が SAM2 よりも優れたアイ画像セグメンテーション性能を提供するかどうかを検証し,新しいコンセプト(テキスト)プロンプトモードの性能について検討する。
- 参考スコア(独自算出の注目度): 0.962543698736491
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous work has reported that vision foundation models show promising zero-shot performance in eye image segmentation. Here we examine whether the latest iteration of the Segment Anything Model, SAM3, offers better eye image segmentation performance than SAM2, and explore the performance of its new concept (text) prompting mode. Eye image segmentation performance was evaluated using diverse datasets encompassing both high-resolution high-quality videos from a lab environment and the TEyeD dataset consisting of challenging eye videos acquired in the wild. Results show that in most cases SAM3 with either visual or concept prompts did not perform better than SAM2, for both lab and in-the-wild datasets. Since SAM2 not only performed better but was also faster, we conclude that SAM2 remains the best option for eye image segmentation. We provide our adaptation of SAM3's codebase that allows processing videos of arbitrary duration.
- Abstract(参考訳): これまでの研究では、視覚基礎モデルでは視線画像のセグメンテーションにおけるゼロショット性能が期待できると報告されてきた。
ここでは,Segment Anything Modelの最新版 SAM3 が SAM2 よりも優れたアイ画像セグメンテーション性能を提供するか否かを検証し,新しいコンセプト(テキスト)プロンプトモードの性能について検討する。
実験室環境からの高解像度高画質ビデオと、野生で取得した挑戦的なアイビデオからなるTEyeDデータセットの両方を含む多様なデータセットを用いて、アイ画像セグメンテーション性能を評価した。
結果は、ほとんどの場合、視覚的または概念的なプロンプトを持つSAM3は、ラボとインザワイルドの両方のデータセットに対してSAM2よりもパフォーマンスが良くなかったことを示している。
SAM2の性能は向上しただけでなく、高速であったため、SAM2はアイイメージセグメンテーションの最良の選択肢であり続けていると結論付けている。
我々はSAM3のコードベースを適応させ、任意の期間のビデオ処理を可能にします。
関連論文リスト
- SAM 3: Segment Anything with Concepts [93.97262932669081]
概念的プロンプトに基づいて画像やビデオ中のオブジェクトを検出し,セグメントを生成し,追跡する統合モデルであるSegment Anything Model(SAM)3を提案する。
PCSはそのようなプロンプトを受け取り、一致するすべてのオブジェクトインスタンスに対してセグメンテーションマスクとIDを返す。
我々のモデルは、画像レベルの検出器と、単一のバックボーンを共有するメモリベースのビデオトラッカーで構成される。
論文 参考訳(メタデータ) (2025-11-20T18:59:56Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - When SAM2 Meets Video Shadow and Mirror Detection [3.3993877661368757]
本研究では,3つのビデオセグメンテーションにおけるセグメンテーションモデル2(SAM2)の有効性を評価する。
具体的には、地上の真理点またはマスクプロンプトを用いて、最初のフレームを初期化し、その後のフレームに対応するマスクを予測する。
実験の結果,特にポイントプロンプトを用いた場合,SAM2の性能は最適以下であることが示唆された。
論文 参考訳(メタデータ) (2024-12-26T17:35:20Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。
セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。
本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文 参考訳(メタデータ) (2024-07-31T02:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。