論文の概要: Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models
- arxiv url: http://arxiv.org/abs/2405.02929v2
- Date: Tue, 7 May 2024 10:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:00:13.490779
- Title: Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models
- Title(参考訳): 個別学習ニューラルモデルより優れた統一型ダイナミックスキャンパス予測器
- Authors: Fares Abawi, Di Fu, Stefan Wermter,
- Abstract要約: 本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。
我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。
結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
- 参考スコア(独自算出の注目度): 18.327960366321655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research on scanpath prediction has mainly focused on group models, disregarding the fact that the scanpaths and attentional behaviors of individuals are diverse. The disregard of these differences is especially detrimental to social human-robot interaction, whereby robots commonly emulate human gaze based on heuristics or predefined patterns. However, human gaze patterns are heterogeneous and varying behaviors can significantly affect the outcomes of such human-robot interactions. To fill this gap, we developed a deep learning-based social cue integration model for saliency prediction to instead predict scanpaths in videos. Our model learned scanpaths by recursively integrating fixation history and social cues through a gating mechanism and sequential attention. We evaluated our approach on gaze datasets of dynamic social scenes, observed under the free-viewing condition. The introduction of fixation history into our models makes it possible to train a single unified model rather than the resource-intensive approach of training individual models for each set of scanpaths. We observed that the late neural integration approach surpasses early fusion when training models on a large dataset, in comparison to a smaller dataset with a similar distribution. Results also indicate that a single unified model, trained on all the observers' scanpaths, performs on par or better than individually trained models. We hypothesize that this outcome is a result of the group saliency representations instilling universal attention in the model, while the supervisory signal and fixation history guide it to learn personalized attentional behaviors, providing the unified model a benefit over individual models due to its implicit representation of universal attention.
- Abstract(参考訳): スキャンパス予測に関するこれまでの研究は、主にグループモデルに焦点を当てており、スキャンパスと個人の注意行動が多様であるという事実を無視している。
ロボットはヒューリスティックスや事前に定義されたパターンに基づいて人間の視線をエミュレートする。
しかしながら、ヒトの視線パターンは異質であり、様々な行動はそのような人間とロボットの相互作用の結果に大きな影響を及ぼす。
このギャップを埋めるため、私たちは、ビデオ中のスキャンパスを予測するために、給与予測のためのディープラーニングベースのソーシャルキュー統合モデルを開発した。
本モデルでは、ゲーティング機構とシーケンシャルアテンションを通じて、修正履歴と社会的手がかりを再帰的に統合することでスキャンパスを学習した。
我々は,自由視聴条件下で観察された動的社会シーンの視線データセットに対するアプローチを評価した。
私たちのモデルに固定履歴を導入することで、各スキャンパスに対して個々のモデルをトレーニングするリソース集約的なアプローチではなく、単一の統一モデルをトレーニングすることが可能になります。
我々は、ニューラルネットワークの後期アプローチが、同じ分布を持つ小さなデータセットと比較して、大規模なデータセット上でのトレーニングモデルにおいて、初期の融合よりも優れていることを観察した。
結果は、観察者のすべてのスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことも示している。
この結果は、モデルに普遍的な注意を喚起するグループサリエンシ表現の結果であり、一方で、監督信号と固定履歴は、パーソナライズされた注意行動を学ぶためのガイドであり、統一モデルは、その暗黙的な普遍的な注意の表現のために、個々のモデルに対して利益をもたらす。
関連論文リスト
- Geometric Graph Neural Network Modeling of Human Interactions in Crowded Environments [3.7752830020595787]
本稿では,歩行者のインタラクションをモデル化し,将来の軌跡を予測するために,心理学的な研究からドメイン知識を統合した幾何学的グラフニューラルネットワークアーキテクチャを提案する。
複数のデータセットにまたがる評価では、平均値と最終変位誤差のメトリクスを減らして予測精度が向上した。
論文 参考訳(メタデータ) (2024-10-22T20:33:10Z) - Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.11801730860999]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。
本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。
また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文 参考訳(メタデータ) (2024-08-08T11:34:31Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Disentangled Sequence Clustering for Human Intention Inference [40.46123013107865]
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
論文 参考訳(メタデータ) (2021-01-23T13:39:34Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。