論文の概要: Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection
- arxiv url: http://arxiv.org/abs/2203.00307v1
- Date: Tue, 1 Mar 2022 09:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:59:53.657920
- Title: Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection
- Title(参考訳): 時間知覚:任意境界検出のための汎用アーキテクチャ
- Authors: Jing Tan, Yuhong Wang, Gangshan Wu, Limin Wang
- Abstract要約: ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
- 参考スコア(独自算出の注目度): 48.33132632418303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic Boundary Detection (GBD) aims at locating general boundaries that
divide videos into semantically coherent and taxonomy-free units, and could
server as an important pre-processing step for long-form video understanding.
Previous research separately handle these different-level generic boundaries
with specific designs of complicated deep networks from simple CNN to LSTM.
Instead, in this paper, our objective is to develop a general yet simple
architecture for arbitrary boundary detection in videos. To this end, we
present Temporal Perceiver, a general architecture with Transformers, offering
a unified solution to the detection of arbitrary generic boundaries. The core
design is to introduce a small set of latent feature queries as anchors to
compress the redundant input into fixed dimension via cross-attention blocks.
Thanks to this fixed number of latent units, it reduces the quadratic
complexity of attention operation to a linear form of input frames.
Specifically, to leverage the coherence structure of videos, we construct two
types of latent feature queries: boundary queries and context queries, which
handle the semantic incoherence and coherence regions accordingly. Moreover, to
guide the learning of latent feature queries, we propose an alignment loss on
cross-attention to explicitly encourage the boundary queries to attend on the
top possible boundaries. Finally, we present a sparse detection head on the
compressed representations and directly output the final boundary detection
results without any post-processing module. We test our Temporal Perceiver on a
variety of detection benchmarks, ranging from shot-level, event-level, to
scene-level GBD. Our method surpasses the previous state-of-the-art methods on
all benchmarks, demonstrating the generalization ability of our temporal
perceiver.
- Abstract(参考訳): ジェネリック境界検出(GBD)は、ビデオのセマンティックコヒーレントと分類なしの単位に分割する一般的な境界の特定を目的としており、長めのビデオ理解のための重要な前処理ステップとしてサーバーを配置する。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,ビデオにおける任意の境界検出のための汎用的かつシンプルなアーキテクチャを開発することを目的とする。
そこで本研究では,変圧器を用いた汎用アーキテクチャであるtemporal perceiverを提案する。
中心となる設計は、少量の潜在機能クエリをアンカーとして導入し、冗長な入力をクロスアテンションブロックを介して固定次元に圧縮する。
この固定数の潜在ユニットのおかげで、注意操作の二次的な複雑さを入力フレームの線形形式に還元する。
具体的には、ビデオのコヒーレンス構造を活用するために、境界クエリとコンテキストクエリという2種類の潜在特徴クエリを構築し、それに応じてセマンティックアンコヒーレンス領域とコヒーレンス領域を処理する。
さらに,潜在機能クエリの学習をガイドするために,境界クエリが最上位の可能な境界に到達することを明示的に促すために,クロスアテンションにおけるアライメント損失を提案する。
最後に、圧縮表現にスパース検出ヘッドを示し、後処理モジュールを使わずに最終境界検出結果を直接出力する。
我々は、ショットレベル、イベントレベル、シーンレベルGBDなど、さまざまな検出ベンチマークでテンポラルパーシーバーをテストする。
提案手法は,すべてのベンチマークにおける従来の最先端手法を超越し,時間知覚器の一般化能力を示す。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Push-the-Boundary: Boundary-aware Feature Propagation for Semantic
Segmentation of 3D Point Clouds [0.5249805590164901]
本研究では,オブジェクト境界近傍のセマンティックセグメンテーションを改善するための境界対応特徴伝搬機構を提案する。
1つの共有エンコーダで、ネットワークは、(i)境界ローカライゼーション、(ii)オブジェクトの内部を指す方向の予測、(iii)セマンティックセグメンテーションを3つの並列ストリームで出力する。
提案手法は境界誤差を低減することによって一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-12-23T15:42:01Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Boundary Guided Context Aggregation for Semantic Segmentation [23.709865471981313]
我々は、画像の全体的意味理解を促進するために、コンテキストアグリゲーションのための重要なガイダンスとして境界を利用する。
我々はCityscapesとADE20Kデータベースに関する広範な実験を行い、最先端の手法で同等の結果を得る。
論文 参考訳(メタデータ) (2021-10-27T17:04:38Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。