論文の概要: Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection
- arxiv url: http://arxiv.org/abs/2511.13784v1
- Date: Sun, 16 Nov 2025 09:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.718246
- Title: Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection
- Title(参考訳): Few-Shot Video Object 検出のための時間物体認識型視覚変換器
- Authors: Yogesh Kumar, Anand Mishra,
- Abstract要約: Few-shot Video Object Detection (FSVOD) は、限定ラベル付き例でビデオ中の新しいオブジェクトを検出するという課題に対処する。
提案手法は,5ショット設定で3.7%(FSVOD-500),5.3%(FSYTV-40),4.3%(VidOR),4.5(VidVRD)のAP改善を実現した。
- 参考スコア(独自算出の注目度): 5.263065070942166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot Video Object Detection (FSVOD) addresses the challenge of detecting novel objects in videos with limited labeled examples, overcoming the constraints of traditional detection methods that require extensive training data. This task presents key challenges, including maintaining temporal consistency across frames affected by occlusion and appearance variations, and achieving novel object generalization without relying on complex region proposals, which are often computationally expensive and require task-specific training. Our novel object-aware temporal modeling approach addresses these challenges by incorporating a filtering mechanism that selectively propagates high-confidence object features across frames. This enables efficient feature progression, reduces noise accumulation, and enhances detection accuracy in a few-shot setting. By utilizing few-shot trained detection and classification heads with focused feature propagation, we achieve robust temporal consistency without depending on explicit object tube proposals. Our approach achieves performance gains, with AP improvements of 3.7% (FSVOD-500), 5.3% (FSYTV-40), 4.3% (VidOR), and 4.5 (VidVRD) in the 5-shot setting. Further results demonstrate improvements in 1-shot, 3-shot, and 10-shot configurations. We make the code public at: https://github.com/yogesh-iitj/fs-video-vit
- Abstract(参考訳): Few-shot Video Object Detection (FSVOD) は、限られたラベル付き例でビデオ中の新しいオブジェクトを検出するという課題に対処し、広範なトレーニングデータを必要とする従来の検出方法の制約を克服する。
この課題は、オクルージョンや外観の変化に影響されたフレーム間の時間的整合性を維持すること、複雑な領域の提案に頼らずに新しいオブジェクトの一般化を実現することなど、計算コストが高く、タスク固有の訓練を必要とする重要な課題を提示する。
提案手法は,フレーム間の高信頼度オブジェクト特徴を選択的に伝播するフィルタリング機構を組み込むことにより,これらの課題に対処する。
これにより、効率的な特徴の進行、ノイズ蓄積の低減、数ショット設定での検出精度の向上が可能となる。
特徴伝搬に焦点をあてた少数ショットの訓練された検出と分類ヘッドを利用することで、明示的な対象管の提案によらず、頑健な時間的整合性を実現する。
提案手法は,5ショット設定で3.7%(FSVOD-500),5.3%(FSYTV-40),4.3%(VidOR),4.5(VidVRD)のAP改善を実現した。
さらなる結果は、1ショット、3ショット、10ショット構成の改善を示している。
https://github.com/yogesh-iitj/fs-video-vit
関連論文リスト
- Generalization-Enhanced Few-Shot Object Detection in Remote Sensing [22.411751110592842]
Few-shot Object Detection (FSOD) は、データ制限条件下でのオブジェクト検出の課題をターゲットにしている。
リモートセンシングタスクにおける一般化機能を改善するために,GE-FSODモデルを提案する。
我々のモデルでは、CFPAN(Cross-Level Fusion Pyramid Attention Network)、MRRPN(Multi-Stage Refinement Region Proposal Network)、GCL(Generalized Classification Loss)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-01-05T08:12:25Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。