論文の概要: Zero-Shot Object Re-Identification in Egocentric Kitchen Videos via Multi-Stage SAM3 Feature Fusion
- arxiv url: http://arxiv.org/abs/2605.26383v1
- Date: Mon, 25 May 2026 23:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.502635
- Title: Zero-Shot Object Re-Identification in Egocentric Kitchen Videos via Multi-Stage SAM3 Feature Fusion
- Title(参考訳): 多段SAM3特徴融合によるエゴセントリックキッチンビデオにおけるゼロショット物体再同定
- Authors: Dmytro Klepachevskyi, Alexander Wong, Sirisha Rambhatla, Yuhao Chen,
- Abstract要約: EPIC-Kitchensベンチマークを用いてゼロショットオブジェクトReIDについて検討した。
目標は、トレーニング済みのビジュアル機能のみを使用して、アクティブな食品とキッチンツールインスタンスをフレーム間でマッチングすることだ。
- 参考スコア(独自算出の注目度): 59.32099847726022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object re-identification (ReID) in egocentric kitchen videos is challenging due to rapid viewpoint changes, frequent occlusions, cluttered scenes, and large intra-class appearance variations. Objects may leave and re-enter the field of view, and the large diversity of instances with limited annotations makes supervised ReID difficult to scale, motivating zero-shot approaches. We study zero-shot object ReID on the EPIC-Kitchens benchmark, where the goal is to match active food and kitchen-tool instances across frames using only pre-trained visual features. We first evaluate five state-of-the-art feature extractors, including Vision-Language Models (VLMs) - CLIP, DINOv2, DreamSim, I-JEPA, and SAM3 - and show that zero-shot methods fail, with the best baseline achieving only 45.3% mAP. We then propose an Enhanced SAM3 ReID Pipeline, a zero-shot multi-stage method built around SAM3 segmentation as the core component. Stage 1 uses SAM3 to suppress background clutter. Stage 2 fuses embeddings from SAM3, DINOv2, and CLIP into a single L2-normalized descriptor. Stage 3 augments cosine similarity with mask-shape IoU for geometric consistency, and Stage 4 applies k-reciprocal re-ranking. The full pipeline improves performance by 7.5% mAP to 52.8%.
- Abstract(参考訳): 自我中心のキッチンビデオにおけるオブジェクト再識別(ReID)は、迅速な視点変化、頻繁な閉塞、散在するシーン、大規模なクラス内外見の変化により困難である。
オブジェクトはビューの領域を離れて再突入し、アノテーションが限定されたインスタンスの多様さにより、教師付きReIDのスケールが難しくなり、ゼロショットアプローチの動機になる。
EPIC-KitchensベンチマークでゼロショットオブジェクトReIDについて検討し、予めトレーニングされた視覚的特徴のみを用いて、フレーム間でアクティブな食品とキッチンツールインスタンスをマッチングすることを目的としている。
VLM(Vision-Language Models)、CLIP(CLIP)、DINOv2(DreamSim)、I-JEPA(I-JEPA)、SAM3(SAM3)を含む5つの最先端機能抽出器をまず評価し、ゼロショットメソッドがフェールすることを示し、最良ベースラインは45.3% mAPに過ぎなかった。
次に,SAM3セグメンテーションを主成分とするゼロショットマルチステージ手法であるEnhanced SAM3 ReID Pipelineを提案する。
ステージ1はSAM3を使用してバックグラウンドの乱雑を抑える。
ステージ2はSAM3、DINOv2、CLIPからの埋め込みを単一のL2正規化記述子に融合させる。
ステージ3はマスク形状のIoUとコサイン類似性を増し、ステージ4はk-相反的に再分類する。
パイプライン全体のパフォーマンスは7.5%mAPから52.8%向上した。
関連論文リスト
- The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation [65.24213788883016]
本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。
私たちは、強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要なパイプラインを構築しています。
我々の手法はPVUW 2026 MeViS-Textテストセットで第1位であり、最終スコアは0.909064、J&Fスコアは0.7897026である。
論文 参考訳(メタデータ) (2026-04-01T02:42:30Z) - Re-Prompting SAM 3 via Object Retrieval: 3rd of the 5th PVUW MOSE Track [51.15679610275694]
目標の消失と再出現下でのロバスト性を改善するための自動再飛散フレームワークを開発した。
我々のソリューションはテストセットで51.17%のJ&Fを達成し、MOSEv2トラックで3位となった。
論文 参考訳(メタデータ) (2026-03-24T23:45:15Z) - SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds [15.318646611581741]
最小エンコーダ修正によるポーズ誘導セグメンテーションにSegment Anything (SAM) を適用した。
反復的修正プロセスに高い可視性を持つポーズキーポイントを組み込む。
推論中、最も可視性の高い3つのキーポイントのみを選択することで、プロンプトを単純化する。
論文 参考訳(メタデータ) (2026-01-13T21:12:03Z) - SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images [51.42466259821335]
我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
論文 参考訳(メタデータ) (2025-12-09T15:42:28Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - SAM-Deblur: Let Segment Anything Boost Image Deblurring [21.964258084389243]
本稿では,Segment Anything Model (SAM) からの事前知識をデブロア処理に組み込んだ SAM-Deblur フレームワークを提案する。
RealBlurJ、ReloBlur、REDSデータセットの実験結果から、GoProでトレーニングしたNAFNetのPSNRをそれぞれ0.05、0.96、および7.03に改善したことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-05T14:33:56Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。