論文の概要: Hopper: Multi-hop Transformer for Spatiotemporal Reasoning
- arxiv url: http://arxiv.org/abs/2103.10574v1
- Date: Fri, 19 Mar 2021 00:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 21:41:08.025200
- Title: Hopper: Multi-hop Transformer for Spatiotemporal Reasoning
- Title(参考訳): Hopper:時空間共振用マルチホップトランス
- Authors: Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin
Renqiang Min, Mubbasir Kapadia, Hans Peter Graf
- Abstract要約: オブジェクトの永続性(object permanence)は、他のオブジェクトに含まれたり、運ばれたりしながら、ビデオの中を移動するオブジェクトの位置を判断する能力である。
ビデオのオブジェクト永続性推論にマルチホップホッパーを使用するマルチホップトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 83.6286904090668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the problem of spatiotemporal object-centric reasoning
in videos. Central to our approach is the notion of object permanence, i.e.,
the ability to reason about the location of objects as they move through the
video while being occluded, contained or carried by other objects. Existing
deep learning based approaches often suffer from spatiotemporal biases when
applied to video reasoning problems. We propose Hopper, which uses a Multi-hop
Transformer for reasoning object permanence in videos. Given a video and a
localization query, Hopper reasons over image and object tracks to
automatically hop over critical frames in an iterative fashion to predict the
final position of the object of interest. We demonstrate the effectiveness of
using a contrastive loss to reduce spatiotemporal biases. We evaluate over
CATER dataset and find that Hopper achieves 73.2% Top-1 accuracy using just 1
FPS by hopping through just a few critical frames. We also demonstrate Hopper
can perform long-term reasoning by building a CATER-h dataset that requires
multi-step reasoning to localize objects of interest correctly.
- Abstract(参考訳): 本稿では,ビデオにおける時空間的対象中心推論の問題について考察する。
我々のアプローチの中心は、物体の永続性、すなわち、他の物体に閉じ込められたり、閉じ込められたり、運ばれたりしながら、ビデオ中を移動する物体の位置を推論する能力である。
既存のディープラーニングベースのアプローチは、ビデオ推論問題に適用すると時空間バイアスを被ることが多い。
ビデオ中のオブジェクトの永続性を推論するためにマルチホップ変換器を用いるホッパーを提案する。
ビデオとローカライゼーションクエリが与えられた場合、Hopperは画像やオブジェクトのトラックに対して、重要なフレームを反復的に自動的にホップして、対象物の最終位置を予測する。
時空間バイアスを低減するために, コントラスト損失を用いることの有効性を示す。
キャリーブデータセット上で評価した結果、ホッパーは1fpsで73.2%のtop-1精度を達成できた。
また,関心のあるオブジェクトを適切にローカライズするために,複数ステップの推論を必要とするcater-hデータセットを構築することで,hopperが長期的推論を行うことを実証する。
関連論文リスト
- Towards Neuro-Symbolic Video Understanding [3.767558059128794]
長期的時間的推論は、フレーム検索システムにとって重要なデシダータムである。
この失敗の主な理由は、フレーム単位の認識と時間的推論を1つのディープネットワークに織り込むためである。
本稿では,個々のフレームの意味的理解に視覚言語モデルを活用するシステムを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:40:27Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Object Permanence in Object Detection Leveraging Temporal Priors at
Inference Time [11.255962936937744]
粒子フィルタからのインスピレーションを引き出す2つのステージ検出手法に、明示的な物体永続性を導入する。
我々の検出器は、推定時の現在のフレームに対する追加提案として、以前のフレームの予測を使用する。
実験では、計算オーバーヘッドが少なく、最大10.3 mAPで検出性能を向上させるフィードバックループを確認した。
論文 参考訳(メタデータ) (2022-11-28T16:24:08Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。