論文の概要: GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online
Action Prediction
- arxiv url: http://arxiv.org/abs/2210.13605v1
- Date: Mon, 24 Oct 2022 21:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:59:30.750629
- Title: GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online
Action Prediction
- Title(参考訳): GliTr:オンライン行動予測のための時空間整合性を有する傾斜変圧器
- Authors: Samrudhdhi B Rangrej, Kevin J Liang, Tal Hassner, James J Clark
- Abstract要約: 多くのオンライン行動予測モデルは、完全なフレームを観察し、スニースと呼ばれるフレーム内の情報的サブリージョンを特定し、参加する。
本稿では,Glimpse Transformers (GliTr) を開発した。
GliTrはSSv2データセットとJesterデータセットでそれぞれ53.02%と93.91%の精度を達成した。
- 参考スコア(独自算出の注目度): 26.184988507662535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many online action prediction models observe complete frames to locate and
attend to informative subregions in the frames called glimpses and recognize an
ongoing action based on global and local information. However, in applications
with constrained resources, an agent may not be able to observe the complete
frame, yet must still locate useful glimpses to predict an incomplete action
based on local information only. In this paper, we develop Glimpse Transformers
(GliTr), which observe only narrow glimpses at all times, thus predicting an
ongoing action and the following most informative glimpse location based on the
partial spatiotemporal information collected so far. In the absence of a ground
truth for the optimal glimpse locations for action recognition, we train GliTr
using a novel spatiotemporal consistency objective: We require GliTr to attend
to the glimpses with features similar to the corresponding complete frames
(i.e. spatial consistency) and the resultant class logits at time t equivalent
to the ones predicted using whole frames up to t (i.e. temporal consistency).
Inclusion of our proposed consistency objective yields ~10% higher accuracy on
the Something-Something-v2 (SSv2) dataset than the baseline cross-entropy
objective. Overall, despite observing only ~33% of the total area per frame,
GliTr achieves 53.02%and 93.91% accuracy on the SSv2 and Jester datasets,
respectively.
- Abstract(参考訳): 多くのオンライン行動予測モデルは、全フレームを観察し、グローバルおよびローカル情報に基づいて現在進行中の行動を認識する。
しかし、制約のあるアプリケーションでは、エージェントは完全なフレームを観測できないかもしれないが、ローカル情報のみに基づいて不完全なアクションを予測するのに有用な見落としを見つけなければならない。
本稿では,これまで収集された部分的時空間情報に基づいて,常に狭い間隙のみを観測する間欠的トランスフォーマー (glitr) を開発し,現在進行中の動作と,それに続く最も有意義な間欠的位置を予測する。
我々はglitrに、対応する完全フレーム(すなわち空間的一貫性)に類似した特徴を持ち、結果として得られるクラスロジットが、t までのフレームで予測されるもの(すなわち時間的一貫性)と同等の時間 t で一致する特徴を持つスピープに出席するよう要求する。
提案手法を適用すれば,Something-v2 (SSv2) データセットの精度は,ベースラインのクロスエントロピー目標よりも約10%高い。
全体では、1フレームあたりの総面積の約33%しか観測していないが、glitrはssv2とjesterデータセットでそれぞれ53.02%と93.91%の精度を達成している。
関連論文リスト
- Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Consistency driven Sequential Transformers Attention Model for Partially
Observable Scenes [3.652509571098291]
完全な画像のみを部分的に観察する逐次トランスフォーマー注意モデル(STAM)を開発した。
われわれのエージェントは、ImageNetとfMoWで27%と42%のピクセルを垣間見ることによって、これまでの最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-04-01T18:51:55Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Passenger Mobility Prediction via Representation Learning for Dynamic
Directed and Weighted Graph [31.062303389341317]
本稿では,gallat (graph prediction with all attention) という新たなグラフアテンションネットワークを提案する。
Gallatでは、DDWグラフの3つの本質的な特性を包括的に組み込むことにより、3つの注意層を構築し、すべての履歴時間スロットにわたって異なる地域間の依存関係を完全にキャプチャします。
提案モデルを実世界のデータセット上で評価し,gallatが最先端のアプローチを上回ることを示した。
論文 参考訳(メタデータ) (2021-01-04T03:32:01Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。