論文の概要: Multimodal Fusion Using Deep Learning Applied to Driver's Referencing of
Outside-Vehicle Objects
- arxiv url: http://arxiv.org/abs/2107.12167v1
- Date: Mon, 26 Jul 2021 12:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:13:56.174803
- Title: Multimodal Fusion Using Deep Learning Applied to Driver's Referencing of
Outside-Vehicle Objects
- Title(参考訳): ディープラーニングを用いたマルチモーダル融合による車外物体のドライバの参照
- Authors: Abdul Rafey Aftab, Michael von der Beeck, Steven Rohrhirsch, Benoit
Diotte, Michael Feld
- Abstract要約: 深層学習を多モード融合ネットワークに応用し,車外オブジェクトを参照する。
我々は、視線、頭ポーズ、指の指を同時に向けることで、異なる車のポーズにおける参照対象を正確に予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is a growing interest in more intelligent natural user interaction with
the car. Hand gestures and speech are already being applied for driver-car
interaction. Moreover, multimodal approaches are also showing promise in the
automotive industry. In this paper, we utilize deep learning for a multimodal
fusion network for referencing objects outside the vehicle. We use features
from gaze, head pose and finger pointing simultaneously to precisely predict
the referenced objects in different car poses. We demonstrate the practical
limitations of each modality when used for a natural form of referencing,
specifically inside the car. As evident from our results, we overcome the
modality specific limitations, to a large extent, by the addition of other
modalities. This work highlights the importance of multimodal sensing,
especially when moving towards natural user interaction. Furthermore, our user
based analysis shows noteworthy differences in recognition of user behavior
depending upon the vehicle pose.
- Abstract(参考訳): 車とのよりインテリジェントな自然なユーザーインタラクションへの関心が高まっている。
ハンドジェスチャーや音声はすでにドライバーと車との対話に使われている。
さらに、マルチモーダルアプローチは自動車業界にも有望である。
本稿では,車両外の物体を参照するためのマルチモーダル融合ネットワークの深層学習を利用する。
視線,頭部のポーズ,指の指先といった特徴を同時に利用し,自動車のさまざまなポーズにおける参照対象を正確に予測する。
特に車内における自然な参照形式に使用する場合,各モダリティの実用的限界を示す。
結果から明らかなように、我々はモダリティ特有の制限を、他のモダリティの追加によって、かなり克服した。
この研究は、特に自然なユーザインタラクションに向かう際に、マルチモーダルセンシングの重要性を強調している。
さらに,本分析では,車両の姿勢によるユーザの行動認識に有意な差がみられた。
関連論文リスト
- Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Looking for a better fit? An Incremental Learning Multimodal Object
Referencing Framework adapting to Individual Drivers [0.0]
自動車産業の急速な進歩により、タッチベースや音声コマンドシステムといった従来の車両のインタラクション方法は、車両外の物体を参照するなど、幅広い非運転関連のタスクには不十分である。
textitIcRegressは、オブジェクトの駆動と参照という2つのタスクに携わるドライバーの振る舞いや特徴に適応する、新しい回帰に基づく漸進的学習手法である。
論文 参考訳(メタデータ) (2024-01-29T12:48:56Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Adaptive User-Centered Multimodal Interaction towards Reliable and
Trusted Automotive Interfaces [0.0]
自動車の物体選択・参照における手の動き, 頭部ポーズ, 視線, 発話について検討した。
移動体から外部オブジェクトを参照するための,ユーザ中心の適応型マルチモーダル融合手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T13:31:00Z) - Multimodal Driver Referencing: A Comparison of Pointing to Objects
Inside and Outside the Vehicle [0.0]
我々は、特定のタスクに対して自然な人間と機械の相互作用を達成するために、複数のモダリティを使用する。
視線・頭・指の動きを追跡することで,マルチモーダル融合アーキテクチャを設計する。
本稿では,運転者の参照対象が車両内外にあるかどうかを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T12:40:13Z) - ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion
Approach for Referencing Outside Objects From a Moving Vehicle [0.0]
シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づくマルチモーダル融合手法を提案する。
また,各ドライバに対して適応型パーソナライズシステムを実現するために,参照タスクの完了時にユーザ間の行動差を利用する方法を示す。
論文 参考訳(メタデータ) (2021-11-03T16:22:17Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z) - V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and
Prediction [74.42961817119283]
車両間通信(V2V)を用いて、自動運転車の知覚と運動予測性能を向上させる。
複数の車両から受信した情報をインテリジェントに集約することで、異なる視点から同じシーンを観察することができる。
論文 参考訳(メタデータ) (2020-08-17T17:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。