論文の概要: Multimodal Driver Referencing: A Comparison of Pointing to Objects
Inside and Outside the Vehicle
- arxiv url: http://arxiv.org/abs/2202.07360v1
- Date: Tue, 15 Feb 2022 12:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:48:28.061071
- Title: Multimodal Driver Referencing: A Comparison of Pointing to Objects
Inside and Outside the Vehicle
- Title(参考訳): マルチモーダルドライバ参照:車両内外の物体に対する指差の比較
- Authors: Abdul Rafey Aftab, Michael von der Beeck
- Abstract要約: 我々は、特定のタスクに対して自然な人間と機械の相互作用を達成するために、複数のモダリティを使用する。
視線・頭・指の動きを追跡することで,マルチモーダル融合アーキテクチャを設計する。
本稿では,運転者の参照対象が車両内外にあるかどうかを識別する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advanced in-cabin sensing technologies, especially vision based approaches,
have tremendously progressed user interaction inside the vehicle, paving the
way for new applications of natural user interaction. Just as humans use
multiple modes to communicate with each other, we follow an approach which is
characterized by simultaneously using multiple modalities to achieve natural
human-machine interaction for a specific task: pointing to or glancing towards
objects inside as well as outside the vehicle for deictic references. By
tracking the movements of eye-gaze, head and finger, we design a multimodal
fusion architecture using a deep neural network to precisely identify the
driver's referencing intent. Additionally, we use a speech command as a trigger
to separate each referencing event. We observe differences in driver behavior
in the two pointing use cases (i.e. for inside and outside objects), especially
when analyzing the preciseness of the three modalities eye, head, and finger.
We conclude that there is no single modality that is solely optimal for all
cases as each modality reveals certain limitations. Fusion of multiple
modalities exploits the relevant characteristics of each modality, hence
overcoming the case dependent limitations of each individual modality.
Ultimately, we propose a method to identity whether the driver's referenced
object lies inside or outside the vehicle, based on the predicted pointing
direction.
- Abstract(参考訳): 高度なインカビンセンシング技術、特にビジョンベースのアプローチは、車内におけるユーザインタラクションを著しく進歩させ、自然なユーザインタラクションの新しい応用への道を開いた。
人間が複数のモードを使って互いに通信するのと同じように、私たちは複数のモードを同時に使用して、特定のタスクに対して自然な人間と機械の相互作用を実現するアプローチに従う。
視線,頭部,指の動きを追跡することで,ディープニューラルネットワークを用いたマルチモーダル融合アーキテクチャを設計し,ドライバの参照意図を正確に識別する。
さらに、各参照イベントを分離するために、音声コマンドをトリガーとして使用します。
特に眼, 頭, 指の3つのモードの正確性を分析する場合, ドライバの挙動の違いを観察する。
我々は、各モダリティが特定の制限を示すため、すべてのケースにのみ最適である単一のモダリティは存在しないと結論づける。
複数のモダリティの融合は、各モダリティの関連する特性を利用するため、個々のモダリティのケース依存の制限を克服する。
最終的に,予測されたポインティング方向に基づいて,運転者の参照対象が車内または車外に存在するか否かを識別する手法を提案する。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Looking for a better fit? An Incremental Learning Multimodal Object
Referencing Framework adapting to Individual Drivers [0.0]
自動車産業の急速な進歩により、タッチベースや音声コマンドシステムといった従来の車両のインタラクション方法は、車両外の物体を参照するなど、幅広い非運転関連のタスクには不十分である。
textitIcRegressは、オブジェクトの駆動と参照という2つのタスクに携わるドライバーの振る舞いや特徴に適応する、新しい回帰に基づく漸進的学習手法である。
論文 参考訳(メタデータ) (2024-01-29T12:48:56Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion
Approach for Referencing Outside Objects From a Moving Vehicle [0.0]
シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づくマルチモーダル融合手法を提案する。
また,各ドライバに対して適応型パーソナライズシステムを実現するために,参照タスクの完了時にユーザ間の行動差を利用する方法を示す。
論文 参考訳(メタデータ) (2021-11-03T16:22:17Z) - Multimodal Fusion Using Deep Learning Applied to Driver's Referencing of
Outside-Vehicle Objects [0.0]
深層学習を多モード融合ネットワークに応用し,車外オブジェクトを参照する。
我々は、視線、頭ポーズ、指の指を同時に向けることで、異なる車のポーズにおける参照対象を正確に予測する。
論文 参考訳(メタデータ) (2021-07-26T12:37:06Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。