Fugu-MT 論文翻訳(概要): Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompt: The 1st Winner for 5th PVUW MOSE Challenge

論文の概要: Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompt: The 1st Winner for 5th PVUW MOSE Challenge

arxiv url: http://arxiv.org/abs/2604.00395v1
Date: Wed, 01 Apr 2026 02:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.798976
Title: Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompt: The 1st Winner for 5th PVUW MOSE Challenge
Title（参考訳）: 第5回PVUW MOSEチャレンジ第1回優勝者
Authors: Jinrong Zhang, Canyang Wu, Xusheng He, Weili Guan, Jianlong Wu, Liqiang Nie,
Abstract要約: Complex Video Objectタスクでは、研究者は、散らかった環境の中で特定のターゲットを追跡し、セグメンテーションする必要がある。この制限の根本原因は、SAM3がこれらの特定の標的種の理解が不十分であることにある。我々はTEPを提案する: 追跡強化プロンプトによる複雑なビデオオブジェクトの改善。
参考スコア（独自算出の注目度）: 65.24213788883016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the Complex Video Object Segmentation task, researchers are required to track and segment specific targets within cluttered environments, which rigorously tests a method's capability for target comprehension and environmental adaptability. Although SAM3, the current state-of-the-art solution, exhibits unparalleled segmentation performance and robustness on conventional targets, it underperforms on tiny and semantic-dominated objects. The root cause of this limitation lies in SAM3's insufficient comprehension of these specific target types. To address this issue, we propose TEP: Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompts. As a training-free approach, TEP leverages external tracking models and Multimodal Large Language Models to introduce tracking-enhanced prompts, thereby alleviating the difficulty SAM3 faces in understanding these challenging targets. Our method achieved first place (56.91%) on the test set of the PVUW Challenge 2026: Complex Video Object Segmentation Track.
Abstract（参考訳）: 複雑なビデオオブジェクトセグメンテーションタスクでは、研究者は、対象の理解と環境適応性に関するメソッドの能力を厳格にテストする、散在した環境内で特定のターゲットを追跡し、セグメンテーションする必要がある。現在の最先端ソリューションであるSAM3は、従来のターゲットに対して非並列なセグメンテーション性能とロバスト性を示すが、小型でセマンティックに支配されたオブジェクトでは性能が劣る。この制限の根本原因は、SAM3がこれらの特定の標的種の理解が不十分であることにある。この問題に対処するために、我々はTEPを提案する: 追跡強化プロンプトによる複雑なビデオオブジェクトのセグメンテーションを改善する。トレーニングなしのアプローチとして、TEPは外部追跡モデルとマルチモーダル大言語モデルを活用して、追跡強化プロンプトを導入し、これらの困難な目標を理解する上でSAM3が直面する困難さを軽減する。本手法はPVUW Challenge 2026: Complex Video Object Segmentation Trackの試験セットで1位(56.91%)を達成した。

関連論文リスト

2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC [46.76209037655681]
セミ教師付きビデオオブジェクトは、指定されたターゲットを1フレームのマスクでビデオシーケンスを通してセグメントすることを目的としている。 SeCフレームワークはより永続的なセグメンテーションのためにオブジェクトの深いセマンティック理解を確立した。 SeCはテストセットで39.7 JFnを獲得し、第7回大規模ビデオオブジェクトチャレンジの複合VOSトラックで2位にランクインした。
論文参考訳（メタデータ） (2025-09-28T12:26:03Z)
Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
FVOS for MOSE Track of 4th PVUW Challenge: 3rd Place Solution [2.9149767401557574]
ビデオオブジェクトPV(VOS)はコンピュータビジョンにおける最も基本的で困難なタスクの1つである。本稿では,挑戦シーンにおける映像オブジェクトの正確なセグメンテーションを実現することを目的とする。
論文参考訳（メタデータ） (2025-04-13T10:14:19Z)
SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文参考訳（メタデータ） (2024-11-11T08:18:49Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文参考訳（メタデータ） (2022-06-24T02:15:06Z)
Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。 AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文参考訳（メタデータ） (2022-03-22T03:33:27Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。