論文の概要: Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching
- arxiv url: http://arxiv.org/abs/2603.06471v1
- Date: Fri, 06 Mar 2026 16:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.281739
- Title: Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching
- Title(参考訳): Match4 Annotate: 意図しないニューラル特徴マッチングによるスパースビデオアノテーションの伝搬
- Authors: Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony,
- Abstract要約: Match4Annotateは、ビデオ内および動画間の両方のポイントおよびマスクアノテーションの伝搬のためのフレームワークである。
本手法は,テスト時のDINOv3特徴に対するSIRENに基づく暗黙的表現に適合し,連続的かつ高時間的特徴場を生成する。
臨床用超音波データセットを3つ評価した。
- 参考スコア(独自算出の注目度): 0.5459797813771498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring per-frame video annotations remains a primary bottleneck for deploying computer vision in specialized domains such as medical imaging, where expert labeling is slow and costly. Label propagation offers a natural solution, yet existing approaches face fundamental limitations. Video trackers and segmentation models can propagate labels within a single sequence but require per-video initialization and cannot generalize across videos. Classic correspondence pipelines operate on detector-chosen keypoints and struggle in low-texture scenes, while dense feature matching and one-shot segmentation methods enable cross-video propagation but lack spatiotemporal smoothness and unified support for both point and mask annotations. We present Match4Annotate, a lightweight framework for both intra-video and inter-video propagation of point and mask annotations. Our method fits a SIREN-based implicit neural representation to DINOv3 features at test time, producing a continuous, high-resolution spatiotemporal feature field, and learns a smooth implicit deformation field between frame pairs to guide correspondence matching. We evaluate on three challenging clinical ultrasound datasets. Match4Annotate achieves state-of-the-art inter-video propagation, outperforming feature matching and one-shot segmentation baselines, while remaining competitive with specialized trackers for intra-video propagation. Our results show that lightweight, test-time-optimized feature matching pipelines have the potential to offer an efficient and accessible solution for scalable annotation workflows.
- Abstract(参考訳): フレーム単位のビデオアノテーションの取得は、専門家のラベル付けが遅くてコストがかかる医療画像のような特殊な領域にコンピュータビジョンをデプロイする上で、依然として主要なボトルネックとなっている。
ラベル伝搬は自然な解決策を提供するが、既存のアプローチは基本的な制限に直面している。
ビデオトラッカーとセグメンテーションモデルは、ラベルを単一のシーケンスで伝播することができるが、ビデオ単位の初期化が必要であり、ビデオ全体にわたって一般化できない。
古典的な対応パイプラインは検出器長のキーポイントで動作し、低テクスチャシーンで苦労する一方、密集した特徴マッチングとワンショットのセグメンテーションはビデオ間の伝搬を可能にするが、時空間の滑らかさが欠如し、ポイントとマスクのアノテーションの統一サポートが欠如している。
Match4Annotateは、ポイントとマスクのアノテーションをビデオ内とビデオ間の両方で表現するための軽量なフレームワークである。
本手法は,DINOv3特徴量に対するSIRENに基づく暗黙的ニューラル表現に適合し,連続的かつ高分解能な時空間特徴量場を生成し,フレーム対間のスムーズな暗黙的変形場を学習し,対応を導出する。
臨床用超音波データセットを3つ評価した。
Match4Annotateは、最先端のビデオ間伝搬、優れた特徴マッチング、ワンショットセグメンテーションベースラインを実現すると同時に、ビデオ内伝搬のための特別なトラッカーと競合する。
我々の結果は、軽量でテスト時間に最適化された機能マッチングパイプラインは、スケーラブルなアノテーションワークフローに対して効率的でアクセスしやすいソリューションを提供する可能性があることを示しています。
関連論文リスト
- A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。