論文の概要: Unsupervised Gaze Prediction in Egocentric Videos by Energy-based
Surprise Modeling
- arxiv url: http://arxiv.org/abs/2001.11580v2
- Date: Thu, 29 Apr 2021 06:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:29:57.433667
- Title: Unsupervised Gaze Prediction in Egocentric Videos by Energy-based
Surprise Modeling
- Title(参考訳): エネルギーベースサプライズモデルによるエゴセントリックビデオの教師なし視線予測
- Authors: Sathyanarayanan N. Aakur, Arunkumar Bagavathi
- Abstract要約: エゴセントリックな認識は、没入型コンピューティングデバイスの出現によって急速に成長してきた。
人間の視線予測は、自我中心の動画を分析する上で重要な問題である。
我々は,エゴセントリックな視線予測タスクにおいて,教師付き深層学習モデルの一般化能力を定量的に分析する。
- 参考スコア(独自算出の注目度): 6.294759639481189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric perception has grown rapidly with the advent of immersive
computing devices. Human gaze prediction is an important problem in analyzing
egocentric videos and has primarily been tackled through either saliency-based
modeling or highly supervised learning. We quantitatively analyze the
generalization capabilities of supervised, deep learning models on the
egocentric gaze prediction task on unseen, out-of-domain data. We find that
their performance is highly dependent on the training data and is restricted to
the domains specified in the training annotations. In this work, we tackle the
problem of jointly predicting human gaze points and temporal segmentation of
egocentric videos without using any training data. We introduce an unsupervised
computational model that draws inspiration from cognitive psychology models of
event perception. We use Grenander's pattern theory formalism to represent
spatial-temporal features and model surprise as a mechanism to predict gaze
fixation points. Extensive evaluation on two publicly available datasets - GTEA
and GTEA+ datasets-shows that the proposed model can significantly outperform
all unsupervised baselines and some supervised gaze prediction baselines.
Finally, we show that the model can also temporally segment egocentric videos
with a performance comparable to more complex, fully supervised deep learning
baselines.
- Abstract(参考訳): エゴセントリックな認識は没入型コンピューティングデバイスの出現によって急速に成長してきた。
人間の視線予測は、自我中心の動画を分析する上で重要な問題であり、主に正統性に基づくモデリングまたは高度に教師付き学習によって取り組まれてきた。
本研究では,教師付き深層学習モデルの自己中心的視線予測タスクにおける一般化能力を定量的に解析する。
その性能はトレーニングデータに大きく依存しており、トレーニングアノテーションで指定されたドメインに限定されていることがわかった。
本研究では,学習データを用いずに,人間の視線と自発的映像の時間分割を共同で予測する問題に取り組む。
本稿では,イベント知覚の認知心理学モデルから着想を得た教師なし計算モデルを提案する。
我々はgrenanderのパターン理論形式を空間-時間的特徴の表現に用い,視線固定点を予測するためのメカニズムとしてモデルサプライズを用いる。
GTEAとGTEA+の2つの公開データセットに対する広範囲な評価は、提案モデルが教師なしベースラインと教師なしガンマ予測ベースラインを著しく上回ることを示す。
最後に、このモデルにより、より複雑で完全に教師されたディープラーニングベースラインに匹敵するパフォーマンスで、エゴセントリックなビデオを時間的にセグメント化できることを示す。
関連論文リスト
- EAMDrift: An interpretable self retrain model for time series [0.0]
EAMDrift(EAMDrift)は、複数の個人予測器から予測を合成し、性能指標に従って予測を重み付けする新しい手法である。
EAMDriftはデータのアウト・オブ・ディストリビューションパターンに自動的に適応し、各瞬間に使用する最も適切なモデルを特定するように設計されている。
本研究は,EAMDriftが個々のベースラインモデルより20%優れ,非解釈可能なアンサンブルモデルに匹敵する精度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:25:26Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。
モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文 参考訳(メタデータ) (2022-11-27T01:53:29Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Toward Improving the Evaluation of Visual Attention Models: a
Crowdsourcing Approach [21.81407627962409]
最先端のモデルは、人間のデータからサリエンシマップを学習することに焦点を当てている。
私たちは、現在の測定値の限界を、唾液度予測とスキャンパス類似性に強調する。
本研究では, 教師なし重力モデルによって生じる走査パスが, 有能で有能な人間の観察者にとっていかに有用かを評価することを目的とした研究である。
論文 参考訳(メタデータ) (2020-02-11T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。