論文の概要: MAAD: A Model and Dataset for "Attended Awareness" in Driving
- arxiv url: http://arxiv.org/abs/2110.08610v1
- Date: Sat, 16 Oct 2021 16:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:35:44.311929
- Title: MAAD: A Model and Dataset for "Attended Awareness" in Driving
- Title(参考訳): MAAD:運転における「意識」のモデルとデータセット
- Authors: Deepak Gopinath, Guy Rosman, Simon Stent, Katsuya Terahata, Luke
Fletcher, Brenna Argall, John Leonard
- Abstract要約: 本研究では,環境に対する参加者の意識を推定するモデルを提案する。
我々のモデルはビデオ形式で入力シーン情報として捉え、ノイズの多い視線推定を行う。
我々は、運転シーンのビデオに出席する23人の被験者の24.5時間の視線シーケンスを含む、高精度な視線追跡装置で新しいデータセットをキャプチャした。
- 参考スコア(独自算出の注目度): 10.463152664328025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a computational model to estimate a person's attended awareness of
their environment. We define attended awareness to be those parts of a
potentially dynamic scene which a person has attended to in recent history and
which they are still likely to be physically aware of. Our model takes as input
scene information in the form of a video and noisy gaze estimates, and outputs
visual saliency, a refined gaze estimate, and an estimate of the person's
attended awareness. In order to test our model, we capture a new dataset with a
high-precision gaze tracker including 24.5 hours of gaze sequences from 23
subjects attending to videos of driving scenes. The dataset also contains
third-party annotations of the subjects' attended awareness based on
observations of their scan path. Our results show that our model is able to
reasonably estimate attended awareness in a controlled setting, and in the
future could potentially be extended to real egocentric driving data to help
enable more effective ahead-of-time warnings in safety systems and thereby
augment driver performance. We also demonstrate our model's effectiveness on
the tasks of saliency, gaze calibration, and denoising, using both our dataset
and an existing saliency dataset. We make our model and dataset available at
https://github.com/ToyotaResearchInstitute/att-aware/.
- Abstract(参考訳): 本研究では,環境に対する参加者の意識を推定する計算モデルを提案する。
参加者の認識は,近年の歴史において,その人物が身体的に認識している可能性の高いダイナミックなシーンの一部と定義する。
本モデルでは,映像と雑音による視線推定の形式で入力シーン情報として捉え,視力評価,洗練された視線推定,入場者の視線推定を出力する。
このモデルをテストするために,23人の被験者による24.5時間の視線シーケンスを含む高精度視線追跡装置を用いた新しいデータセットを作成した。
データセットには、スキャンパスの観察に基づいて、被験者のアウェアネスに対するサードパーティのアノテーションも含まれている。
我々のモデルでは,制御された環境下での参加者の意識を合理的に推定することが可能であり,将来は実際の自我中心の運転データに拡張して,安全システムにおけるより効果的な事前警告を可能にし,ドライバーのパフォーマンスを向上する可能性がある。
また,当社のデータセットと既存のsaliencyデータセットの両方を用いて,saliency, gaze calibration, denoisingのタスクにおけるモデルの有効性を実証した。
モデルとデータセットはhttps://github.com/ToyotaResearchInstitute/att-aware/で公開しています。
関連論文リスト
- Self-Updating Vehicle Monitoring Framework Employing Distributed Acoustic Sensing towards Real-World Settings [5.306938463648908]
本稿では,都市環境に合わせて,リアルタイムな半教師付き車両監視フレームワークを提案する。
初期トレーニングにはわずかな手動ラベルしか必要とせず、モデル改善のためにラベル付けされていないデータを活用する。
車両の走行速度の異なる1台の車両を追尾するために、車両の軌跡形状を取り入れた新しい先行損失を提案する。
論文 参考訳(メタデータ) (2024-09-16T13:10:58Z) - VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - Exploring the Evolution of Hidden Activations with Live-Update Visualization [12.377279207342735]
我々は、トレーニング中に隠された表現の進行を明らかにする自動化されたリアルタイム可視化ツールであるSentryCamを紹介した。
以上の結果から, この可視化は, 基礎的指標と比較して, 学習のダイナミクスをより包括的に把握できることが示唆された。
SentryCamは、タスク転送や破滅的な忘れなど、継続的な学習環境への詳細な分析を容易にすることができる。
論文 参考訳(メタデータ) (2024-05-24T01:23:20Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Data Limitations for Modeling Top-Down Effects on Drivers' Attention [12.246649738388388]
運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。
ドライバーの視線の一部のモデルは、ドライバーの行動によるトップダウン効果を考慮に入れている。
大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。
論文 参考訳(メタデータ) (2024-04-12T18:23:00Z) - EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。