論文の概要: MAAD: A Model and Dataset for "Attended Awareness" in Driving
- arxiv url: http://arxiv.org/abs/2110.08610v1
- Date: Sat, 16 Oct 2021 16:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:35:44.311929
- Title: MAAD: A Model and Dataset for "Attended Awareness" in Driving
- Title(参考訳): MAAD:運転における「意識」のモデルとデータセット
- Authors: Deepak Gopinath, Guy Rosman, Simon Stent, Katsuya Terahata, Luke
Fletcher, Brenna Argall, John Leonard
- Abstract要約: 本研究では,環境に対する参加者の意識を推定するモデルを提案する。
我々のモデルはビデオ形式で入力シーン情報として捉え、ノイズの多い視線推定を行う。
我々は、運転シーンのビデオに出席する23人の被験者の24.5時間の視線シーケンスを含む、高精度な視線追跡装置で新しいデータセットをキャプチャした。
- 参考スコア(独自算出の注目度): 10.463152664328025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a computational model to estimate a person's attended awareness of
their environment. We define attended awareness to be those parts of a
potentially dynamic scene which a person has attended to in recent history and
which they are still likely to be physically aware of. Our model takes as input
scene information in the form of a video and noisy gaze estimates, and outputs
visual saliency, a refined gaze estimate, and an estimate of the person's
attended awareness. In order to test our model, we capture a new dataset with a
high-precision gaze tracker including 24.5 hours of gaze sequences from 23
subjects attending to videos of driving scenes. The dataset also contains
third-party annotations of the subjects' attended awareness based on
observations of their scan path. Our results show that our model is able to
reasonably estimate attended awareness in a controlled setting, and in the
future could potentially be extended to real egocentric driving data to help
enable more effective ahead-of-time warnings in safety systems and thereby
augment driver performance. We also demonstrate our model's effectiveness on
the tasks of saliency, gaze calibration, and denoising, using both our dataset
and an existing saliency dataset. We make our model and dataset available at
https://github.com/ToyotaResearchInstitute/att-aware/.
- Abstract(参考訳): 本研究では,環境に対する参加者の意識を推定する計算モデルを提案する。
参加者の認識は,近年の歴史において,その人物が身体的に認識している可能性の高いダイナミックなシーンの一部と定義する。
本モデルでは,映像と雑音による視線推定の形式で入力シーン情報として捉え,視力評価,洗練された視線推定,入場者の視線推定を出力する。
このモデルをテストするために,23人の被験者による24.5時間の視線シーケンスを含む高精度視線追跡装置を用いた新しいデータセットを作成した。
データセットには、スキャンパスの観察に基づいて、被験者のアウェアネスに対するサードパーティのアノテーションも含まれている。
我々のモデルでは,制御された環境下での参加者の意識を合理的に推定することが可能であり,将来は実際の自我中心の運転データに拡張して,安全システムにおけるより効果的な事前警告を可能にし,ドライバーのパフォーマンスを向上する可能性がある。
また,当社のデータセットと既存のsaliencyデータセットの両方を用いて,saliency, gaze calibration, denoisingのタスクにおけるモデルの有効性を実証した。
モデルとデータセットはhttps://github.com/ToyotaResearchInstitute/att-aware/で公開しています。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [70.59399670794171]
ソーシャルトランスモーション(Social-Transmotion)は、トランスフォーマーのパワーを利用して、多種多様な視覚的手がかりを扱う汎用モデルである。
提案手法は,JTA,JRDB,道路交通の歩行者・自転車,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Interpretable End-to-End Driving Model for Implicit Scene Understanding [3.4248756007722987]
暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
論文 参考訳(メタデータ) (2023-08-02T14:43:08Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Vision-Guided Forecasting -- Visual Context for Multi-Horizon Time
Series Forecasting [0.6947442090579469]
2つのモードを融合させて車両状態のマルチ水平予測に取り組む。
我々は,視覚的特徴抽出のための3次元畳み込みと,速度と操舵角度トレースからの特徴抽出のための1次元畳み込みの設計と実験を行った。
我々は,車両の状態を様々な地平線に予測でき,運転状態推定のタスクにおいて,現在の最先端結果よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-27T08:52:40Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。