論文の概要: THU-Warwick Submission for EPIC-KITCHEN Challenge 2025: Semi-Supervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2506.06748v1
- Date: Sat, 07 Jun 2025 10:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.460357
- Title: THU-Warwick Submission for EPIC-KITCHEN Challenge 2025: Semi-Supervised Video Object Segmentation
- Title(参考訳): EPIC-KITCHEN Challenge 2025: semi-Supervised Video Object Segmentation
- Authors: Mingqi Gao, Haoran Duan, Tianlu Zhang, Jungong Han,
- Abstract要約: 本手法は,SAM2からの大規模視覚前訓練と深度に基づく幾何学的手法を組み合わせて,複雑なシーンと長期追跡を扱う。
VISORテストセットでは、J&Fスコアが90.1%に達する。
- 参考スコア(独自算出の注目度): 49.54727231738117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe our approach to egocentric video object segmentation. Our method combines large-scale visual pretraining from SAM2 with depth-based geometric cues to handle complex scenes and long-term tracking. By integrating these signals in a unified framework, we achieve strong segmentation performance. On the VISOR test set, our method reaches a J&F score of 90.1%.
- Abstract(参考訳): 本稿では,エゴセントリックなビデオオブジェクトセグメンテーションへのアプローチについて述べる。
本手法は,SAM2からの大規模視覚前訓練と深度に基づく幾何学的手法を組み合わせて,複雑なシーンと長期追跡を扱う。
これらの信号を統一されたフレームワークに統合することにより、高いセグメンテーション性能を実現する。
VISORテストセットでは、J&Fスコアが90.1%に達する。
関連論文リスト
- DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。