論文の概要: Context Enhanced Transformer for Single Image Object Detection
- arxiv url: http://arxiv.org/abs/2312.14492v1
- Date: Fri, 22 Dec 2023 07:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:53:17.431639
- Title: Context Enhanced Transformer for Single Image Object Detection
- Title(参考訳): 単一画像物体検出のためのコンテキスト拡張トランス
- Authors: Seungjun An, Seonghoon Park, Gyeongnyeon Kim, Jeongyeol Baek,
Byeongwon Lee, Seungryong Kim
- Abstract要約: 我々は、CETR(Context Enhanced TRansformer)と呼ばれる、単一画像オブジェクト検出のための新しいアプローチを提案する。
時間的情報を効率的に保存するために,データ間でコンテキスト情報を収集するクラスワイドメモリを構築した。
本稿では,現在の画像の関連メモリを選択的に活用するための分類に基づくサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 31.52466523847246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing importance of video data in real-world applications,
there is a rising need for efficient object detection methods that utilize
temporal information. While existing video object detection (VOD) techniques
employ various strategies to address this challenge, they typically depend on
locally adjacent frames or randomly sampled images within a clip. Although
recent Transformer-based VOD methods have shown promising results, their
reliance on multiple inputs and additional network complexity to incorporate
temporal information limits their practical applicability. In this paper, we
propose a novel approach to single image object detection, called Context
Enhanced TRansformer (CETR), by incorporating temporal context into DETR using
a newly designed memory module. To efficiently store temporal information, we
construct a class-wise memory that collects contextual information across data.
Additionally, we present a classification-based sampling technique to
selectively utilize the relevant memory for the current image. In the testing,
We introduce a test-time memory adaptation method that updates individual
memory functions by considering the test distribution. Experiments with CityCam
and ImageNet VID datasets exhibit the efficiency of the framework on various
video systems. The project page and code will be made available at:
https://ku-cvlab.github.io/CETR.
- Abstract(参考訳): 実世界のアプリケーションにおけるビデオデータの重要性が高まっているため、時間情報を利用する効率的なオブジェクト検出手法の必要性が高まっている。
既存のビデオオブジェクト検出(VOD)技術では、この課題に対処するための様々な戦略が採用されているが、通常は、近隣のフレームやクリップ内のランダムなサンプル画像に依存する。
近年の Transformer ベースのVOD 法は有望な結果を示しているが,時間的情報を組み込むネットワークの複雑さにより,実用性は制限されている。
本稿では,新たに設計されたメモリモジュールを用いて,detrに時間的コンテキストを組み込むことにより,コンテキストエンハンストランス(cetr)と呼ばれる単一画像オブジェクト検出手法を提案する。
時間情報を効率的に保存するために,データ間で文脈情報を収集するクラスメモリを構築する。
さらに,現在の画像の関連メモリを選択的に活用するための分類に基づくサンプリング手法を提案する。
本テストでは,テスト分布を考慮し,個々のメモリ機能を更新するテスト時間メモリ適応手法を提案する。
citycamとimagenet vidデータセットを用いた実験は、様々なビデオシステムにおけるフレームワークの効率を示す。
プロジェクトページとコードは、https://ku-cvlab.github.io/cetr.com/で利用可能になる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T06:42:37Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Robust and efficient post-processing for video object detection [9.669942356088377]
この研究は、従来の後処理メソッドの制限を克服する、新しい後処理パイプラインを導入している。
本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善する。
そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2020-09-23T10:47:24Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。