論文の概要: Improving Token-based Object Detection with Video
- arxiv url: http://arxiv.org/abs/2506.22562v1
- Date: Fri, 27 Jun 2025 18:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.465987
- Title: Improving Token-based Object Detection with Video
- Title(参考訳): ビデオによるトークンベース物体検出の改善
- Authors: Abhineet Singh, Nilanjan Ray,
- Abstract要約: 本稿では、Pix2Seqオブジェクト検出器をビデオ用に拡張することで改善する。
オブジェクトを離散トークンの可変長シーケンスとして表現する。
ビデオオブジェクトは、完全に統合され、分割できない3Dボックスまたはトラックレットとして出力する。
- 参考スコア(独自算出の注目度): 4.995343972237369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper improves upon the Pix2Seq object detector by extending it for videos. In the process, it introduces a new way to perform end-to-end video object detection that improves upon existing video detectors in two key ways. First, by representing objects as variable-length sequences of discrete tokens, we can succinctly represent widely varying numbers of video objects, with diverse shapes and locations, without having to inject any localization cues in the training process. This eliminates the need to sample the space of all possible boxes that constrains conventional detectors and thus solves the dual problems of loss sparsity during training and heuristics-based postprocessing during inference. Second, it conceptualizes and outputs the video objects as fully integrated and indivisible 3D boxes or tracklets instead of generating image-specific 2D boxes and linking these boxes together to construct the video object, as done in most conventional detectors. This allows it to scale effortlessly with available computational resources by simply increasing the length of the video subsequence that the network takes as input, even generalizing to multi-object tracking if the subsequence can span the entire video. We compare our video detector with the baseline Pix2Seq static detector on several datasets and demonstrate consistent improvement, although with strong signs of being bottlenecked by our limited computational resources. We also compare it with several video detectors on UA-DETRAC to show that it is competitive with the current state of the art even with the computational bottleneck. We make our code and models publicly available.
- Abstract(参考訳): 本稿では、Pix2Seqオブジェクト検出器をビデオ用に拡張することで改善する。
このプロセスでは、既存のビデオ検出器を2つの重要な方法で改善する、エンドツーエンドのビデオオブジェクト検出を行う新しい方法が導入されている。
第一に、オブジェクトを離散トークンの可変長シーケンスとして表現することにより、トレーニングプロセスで局所化キューを注入することなく、多様な形状や位置を持つ、幅広い数のビデオオブジェクトを簡潔に表現することができる。
これにより、従来の検出器を制約する全ての可能なボックスの空間をサンプリングする必要がなくなるため、トレーニング中の損失空間と推論中のヒューリスティックスベースの後処理という2つの問題を解決できる。
第2に、ビデオオブジェクトを、画像固有の2Dボックスを生成してこれらのボックスをリンクしてビデオオブジェクトを構築する代わりに、完全に統合され、分割不可能な3Dボックスまたはトラックレットとして概念化し、出力する。
これにより、ネットワークが入力として取るビデオのサブシーケンスの長さを単純に増やすことで、利用可能な計算リソースを無駄にスケールすることができる。
ビデオ検出器と、いくつかのデータセット上のベースラインPix2Seq静的検出器を比較し、一貫した改善を示す。
また、UA-DETRAC上のいくつかのビデオ検出器と比較し、計算ボトルネックであっても現在の最先端技術と競合することを示す。
コードとモデルを公開しています。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Robust and efficient post-processing for video object detection [9.669942356088377]
この研究は、従来の後処理メソッドの制限を克服する、新しい後処理パイプラインを導入している。
本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善する。
そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2020-09-23T10:47:24Z) - Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing [15.162117090697006]
そこで我々は,ビデオにおけるオブジェクト検出の計算要求を削減するためのPack and Detectを提案する。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4.99ドル削減できることを示している。
論文 参考訳(メタデータ) (2018-09-05T19:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。