Fugu-MT 論文翻訳(概要): Inductive Attention for Video Action Anticipation

論文の概要: Inductive Attention for Video Action Anticipation

arxiv url: http://arxiv.org/abs/2212.08830v1
Date: Sat, 17 Dec 2022 09:51:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 17:13:06.751312
Title: Inductive Attention for Video Action Anticipation
Title（参考訳）: 映像行動予測のための誘導的注意
Authors: Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald Lanz
Abstract要約: 映像観察に基づく今後の行動予測は,映像理解において重要な課題である。アクション予測における入力はプレアクションフレームのみであるため、モデルはターゲットアクションに関する十分な情報を持っていない。本稿では,予測結果を導出するクエリとして事前予測を透過的に利用する帰納的注意モデルを提案する。
参考スコア（独自算出の注目度）: 16.240254363118016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Anticipating future actions based on video observations is an important task in video understanding, which would be useful for some precautionary systems that require response time to react before an event occurs. Since the input in action anticipation is only pre-action frames, models do not have enough information about the target action; moreover, similar pre-action frames may lead to different futures. Consequently, any solution using existing action recognition models can only be suboptimal. Recently, researchers have proposed using a longer video context to remedy the insufficient information in pre-action intervals, as well as the self-attention to query past relevant moments to address the anticipation problem. However, the indirect use of video input features as the query might be inefficient, as it only serves as the proxy to the anticipation goal. To this end, we propose an inductive attention model, which transparently uses prior prediction as the query to derive the anticipation result by induction from past experience. Our method naturally considers the uncertainty of multiple futures via the many-to-many association. On the large-scale egocentric video datasets, our model not only shows consistently better performance than state of the art using the same backbone, and is competitive to the methods that employ a stronger backbone, but also superior efficiency in less model parameters.
Abstract（参考訳）: ビデオ観察に基づく将来の行動を予測することは、ビデオ理解において重要な課題であり、イベントが起こる前に応答時間を必要とする予防システムにおいて有用である。入力された動作予測は前アクションフレームのみであるため、モデルにはターゲットアクションに関する情報が不十分である。したがって、既存のアクション認識モデルを使用するソリューションは、サブオプティマイズしかできない。近年,より長いビデオ・コンテクストを用いて,事前行動間隔で不十分な情報を補うことや,予測問題に対処するために関連した瞬間を検索する自己注意が提案されている。しかしながら、クエリとしての間接的なビデオ入力機能は、予測目標へのプロキシとしてのみ機能するため、非効率である可能性がある。そこで本研究では,過去の経験から予測結果を導出するためのクエリとして,事前予測を透過的に利用する誘導型注意モデルを提案する。本手法は,多対多関係による複数未来の不確かさを自然に考慮する。大規模エゴセントリックビデオデータセットでは,同じバックボーンを用いた最先端技術よりも一貫して優れた性能を示すだけでなく,より強力なバックボーンを用いる方法と競合するだけでなく,少ないモデルパラメータで優れた効率を示す。

関連論文リスト

From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。 ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-08-05T18:38:29Z)
Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文参考訳（メタデータ） (2024-07-16T17:48:05Z)
Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文参考訳（メタデータ） (2022-06-02T12:16:44Z)
The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文参考訳（メタデータ） (2022-04-28T08:21:09Z)
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文参考訳（メタデータ） (2022-03-17T13:08:28Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Review of Video Predictive Understanding: Early ActionRecognition and Future Action Prediction [39.966828592322315]
アクション予測は、ビデオ予測理解の重要なサブ領域である。様々な数学的ツールが、これらの2つのタスクに対してコンピュータビジョン技術と共に広く採用されている。深層畳み込みニューラルネットワークと繰り返しニューラルネットワークに依存する構造は、既存の視覚タスクの性能を改善するために広く提案されている。
論文参考訳（メタデータ） (2021-07-11T22:46:52Z)
Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文参考訳（メタデータ） (2021-04-08T17:59:16Z)
Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文参考訳（メタデータ） (2021-01-13T08:04:10Z)
Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文参考訳（メタデータ） (2020-09-02T15:41:32Z)
What-If Motion Prediction for Autonomous Driving [58.338520347197765]
生存可能なソリューションは、道路レーンのような静的な幾何学的文脈と、複数のアクターから生じる動的な社会的相互作用の両方を考慮しなければならない。本稿では,解釈可能な幾何学的(アクター・レーン)と社会的(アクター・アクター)の関係を持つグラフに基づく注意的アプローチを提案する。提案モデルでは,道路レーンやマルチアクターの相互作用を仮定的に,あるいは「何」かで予測できる。
論文参考訳（メタデータ） (2020-08-24T17:49:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。