論文の概要: MVP: Motion Vector Propagation for Zero-Shot Video Object Detection
- arxiv url: http://arxiv.org/abs/2509.18388v1
- Date: Mon, 22 Sep 2025 20:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.565637
- Title: MVP: Motion Vector Propagation for Zero-Shot Video Object Detection
- Title(参考訳): MVP:ゼロショットビデオオブジェクト検出のためのモーションベクトルプロパゲーション
- Authors: Binhua Huang, Ni Wang, Wendong Yao, Soumyabrata Dev,
- Abstract要約: ビデオフレームごとに大きなオープン語彙検出器を走らせるのは正確だが、高価だ。
本研究では, OWLv2を固定間隔でのみ実行し, 中間フレームに検出を伝搬する学習自由パイプラインを提案する。
モーションベクトルの単純な3x3グリッドアグリゲーションは、変換と一様スケールの更新を提供する。
- 参考スコア(独自算出の注目度): 4.205094277722087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running a large open-vocabulary (Open-vocab) detector on every video frame is accurate but expensive. We introduce a training-free pipeline that invokes OWLv2 only on fixed-interval keyframes and propagates detections to intermediate frames using compressed-domain motion vectors (MV). A simple 3x3 grid aggregation of motion vectors provides translation and uniform-scale updates, augmented with an area-growth check and an optional single-class switch. The method requires no labels, no fine-tuning, and uses the same prompt list for all open-vocabulary methods. On ILSVRC2015-VID (validation dataset), our approach (MVP) attains mAP@0.5=0.609 and mAP@[0.5:0.95]=0.316. At loose intersection-over-union (IoU) thresholds it remains close to framewise OWLv2-Large (0.747/0.721 at 0.2/0.3 versus 0.784/0.780), reflecting that coarse localization is largely preserved. Under the same keyframe schedule, MVP outperforms tracker-based propagation (MOSSE, KCF, CSRT) at mAP@0.5. A supervised reference (YOLOv12x) reaches 0.631 at mAP@0.5 but requires labeled training, whereas our method remains label-free and open-vocabulary. These results indicate that compressed-domain propagation is a practical way to reduce detector invocations while keeping strong zero-shot coverage in videos. Our code and models are available at https://github.com/microa/MVP.
- Abstract(参考訳): ビデオフレームごとに大きなオープンボキャブラリ(Open-vocab)検出器を走らせるのは正確だが高価だ。
本研究では、OWLv2を固定間隔鍵フレーム上でのみ起動し、圧縮領域運動ベクトル(MV)を用いて中間フレームに検出を伝搬する学習自由パイプラインを提案する。
モーションベクトルの単純な3x3グリッドアグリゲーションは、翻訳と一様スケールの更新を提供し、エリアグロースチェックとオプションのシングルクラススイッチで拡張する。
このメソッドはラベルも微調整も必要とせず、すべてのオープン語彙メソッドに同じプロンプトリストを使用する。
ILSVRC2015-VID(検証データセット)では、mAP@0.5=0.609とmAP@[0.5:0.95]=0.316に達する。
緩い交叉結合(IoU)閾値では、粗い局在がほとんど保存されていることを反映して、OWLv2-Large (0.747/0.721 at 0.2/0.3 vs 0.784/0.780) に近いままである。
同じキーフレームスケジュールの下で、MVPは、mAP@0.5でトラッカーベースの伝搬(MOSSE、KCF、CSRT)より優れています。
教師付き参照(YOLOv12x)はmAP@0.5で0.631に達するが、ラベル付きトレーニングが必要である。
これらの結果から, 圧縮領域伝播は, ビデオ中のゼロショットカバレッジを強く保ちながら, 検出器の呼び出しを減らすための実用的な方法であることがわかった。
私たちのコードとモデルはhttps://github.com/microa/MVPで公開されています。
関連論文リスト
- LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。
提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。
我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文 参考訳(メタデータ) (2025-03-25T15:47:13Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention [13.36619701679949]
ウィンドウベースのトランスフォーマーは、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
既存のメソッドは、ウィンドウ内のボクセルを広範囲のソートとパディング操作を通じて固定長のシーケンスにグループ化する。
ScatterFormerは、異なるウィンドウにまたがるvoxelに直接、単一のシーケンスとして注意を向ける最初の方法です。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z) - ZeroFlow: Scalable Scene Flow via Distillation [66.70820145266029]
シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは、強い事前とテスト時の最適化技術を使用するが、フルサイズの点雲を処理するには数秒の順序を必要とする。
本研究では,ラベルなし最適化手法を用いて擬似ラベルを生成し,フィードフォワードモデルを監督する簡易でスケーラブルな蒸留フレームワークであるScene Flow via Distillationを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:56:59Z) - Boosting Semi-Supervised 3D Object Detection with Semi-Sampling [85.68737731673396]
我々は、グラウンド・シークレット・ラベルと擬似ラベルを用いて、ラベル付きフレームとラベルなしフレームのgtサンプルと擬似サンプルを収穫する。
教師が指導する半教師付きフレームワークのトレーニングでは,ラベル付きフレームとラベルなしフレームの両方に対して,gtサンプルと擬似サンプルをランダムに選択する。
我々は、ScanNet、SUN-RGBD、KITTIベンチマークにおける最先端の手法を大きなマージンで継続的に改善する。
論文 参考訳(メタデータ) (2022-11-14T03:22:03Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - FCOSR: A Simple Anchor-free Rotated Detector for Aerial Object Detection [39.921541182631245]
FCOSに基づく一段アンカーフリー回転物体検出器(FCOSR)を提案する。
FCOSRは単純なアーキテクチャであり、畳み込み層のみで構成されている。
DOTA1.0上の73.93 mAPをJetson Xavier NX上の10.68 FPSで1スケールで変換する。
論文 参考訳(メタデータ) (2021-11-21T09:49:13Z) - OVANet: One-vs-All Network for Universal Domain Adaptation [78.86047802107025]
既存のメソッドは、検証または未知のサンプルの事前定義された比率に基づいて未知のサンプルを拒否するしきい値を手動で設定します。
本稿では,ソースサンプルを用いて閾値を学習し,対象領域に適応する手法を提案する。
私たちの考えは、ソースドメインの最小クラス間距離は、ターゲットの既知のか未知かを決定するための良いしきい値であるべきです。
論文 参考訳(メタデータ) (2021-04-07T18:36:31Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。