論文の概要: Learning Multimodal Confidence for Intention Recognition in Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2405.14116v1
- Date: Thu, 23 May 2024 02:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:15:00.634999
- Title: Learning Multimodal Confidence for Intention Recognition in Human-Robot Interaction
- Title(参考訳): 人間-ロボットインタラクションにおける意図認識のためのマルチモーダル信頼の学習
- Authors: Xiyuan Zhao, Huijun Li, Tianyuan Miao, Xianyi Zhu, Zhikai Wei, Aiguo Song,
- Abstract要約: 新たな学習型マルチモーダル融合フレームワークBatch Multimodal Confidence Learning for Opinion Pool (BMCLOP)を提案する。
提案手法は,ベイズ多モード融合法とバッチ信頼度学習アルゴリズムを組み合わせることで,精度,不確実性低減,成功率を向上させる。
所望の補助シナリオでは、3つのモーダルティ・ジェスチャ、スピーチ、視線を考慮し、これらすべてがすべての有限の意図に対してカテゴリー分布を生成する。
- 参考スコア(独自算出の注目度): 6.658036685588584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of collaborative robotics has provided a new possibility of helping the elderly who has difficulties in daily life, allowing robots to operate according to specific intentions. However, efficient human-robot cooperation requires natural, accurate and reliable intention recognition in shared environments. The current paramount challenge for this is reducing the uncertainty of multimodal fused intention to be recognized and reasoning adaptively a more reliable result despite current interactive condition. In this work we propose a novel learning-based multimodal fusion framework Batch Multimodal Confidence Learning for Opinion Pool (BMCLOP). Our approach combines Bayesian multimodal fusion method and batch confidence learning algorithm to improve accuracy, uncertainty reduction and success rate given the interactive condition. In particular, the generic and practical multimodal intention recognition framework can be easily extended further. Our desired assistive scenarios consider three modalities gestures, speech and gaze, all of which produce categorical distributions over all the finite intentions. The proposed method is validated with a six-DoF robot through extensive experiments and exhibits high performance compared to baselines.
- Abstract(参考訳): コラボレーションロボティクスの急速な発展は、日常生活に困難を抱える高齢者を助ける新たな可能性を提供し、特定の意図に応じてロボットを動作させることを可能にした。
しかし、効率的な人間とロボットの協力は、共有環境において自然で正確で信頼性の高い意図認識を必要とする。
これに対する現在の課題は、現在の対話的条件にもかかわらず、認識すべきマルチモーダルフューズド意図の不確実性を低減し、より信頼性の高い結果を適応的に推論することである。
本研究では,新たな学習ベースのマルチモーダル融合フレームワークであるBatch Multimodal Confidence Learning for Opinion Pool (BMCLOP)を提案する。
本手法はベイジアン多モード融合法とバッチ信頼度学習アルゴリズムを組み合わせることで,対話型条件から精度,不確実性低減,成功率を向上させる。
特に、汎用的で実用的なマルチモーダルな意図認識フレームワークをより容易に拡張することができる。
所望の補助シナリオでは、3つのモーダルティ・ジェスチャ、スピーチ、視線を考慮し、これらすべてがすべての有限の意図に対してカテゴリー分布を生成する。
提案手法は広汎な実験により6自由度ロボットを用いて検証し,ベースラインと比較して高い性能を示す。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Uncertainty-aware Multi-modal Learning via Cross-modal Random Network
Prediction [22.786774541083652]
クロスモーダルランダムネットワーク予測(CRNP)による特徴密度の測定により不確かさを推定する不確実性認識型マルチモーダル学習器を提案する。
CRNPは、安定したトレーニングプロセスを持ちながら、異なる予測タスク間の変換にほとんど適応を必要としないように設計されている。
論文 参考訳(メタデータ) (2022-07-22T03:00:10Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。