論文の概要: BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios
- arxiv url: http://arxiv.org/abs/2206.10665v1
- Date: Tue, 21 Jun 2022 18:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:38:56.449522
- Title: BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios
- Title(参考訳): BOSS: オブジェクトコンテキストシナリオにおける人間の信念予測のベンチマーク
- Authors: Jiafei Duan, Samson Yu, Nicholas Tan, Li Yi, Cheston Tan
- Abstract要約: 本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
- 参考スコア(独自算出の注目度): 14.23697277904244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans with an average level of social cognition can infer the beliefs of
others based solely on the nonverbal communication signals (e.g. gaze, gesture,
pose and contextual information) exhibited during social interactions. This
social cognitive ability to predict human beliefs and intentions is more
important than ever for ensuring safe human-robot interaction and
collaboration. This paper uses the combined knowledge of Theory of Mind (ToM)
and Object-Context Relations to investigate methods for enhancing collaboration
between humans and autonomous systems in environments where verbal
communication is prohibited. We propose a novel and challenging multimodal
video dataset for assessing the capability of artificial intelligence (AI)
systems in predicting human belief states in an object-context scenario. The
proposed dataset consists of precise labelling of human belief state
ground-truth and multimodal inputs replicating all nonverbal communication
inputs captured by human perception. We further evaluate our dataset with
existing deep learning models and provide new insights into the effects of the
various input modalities and object-context relations on the performance of the
baseline models.
- Abstract(参考訳): 平均的な社会的認知レベルを持つ人間は、社会的相互作用の間に提示された非言語コミュニケーション信号(例えば、視線、ジェスチャー、ポーズ、文脈情報)のみに基づいて他人の信念を推測することができる。
人間の信念や意図を予測するこの社会的認知能力は、人間とロボットの安全な相互作用とコラボレーションを保証するために、これまで以上に重要である。
本稿では,言語コミュニケーションが禁止されている環境において,人間と自律システム間の協調性を高める手法を検討するために,心の理論の知識(tom)と対物文脈関係(object-context relations)を組み合わせて用いる。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新規で挑戦的なマルチモーダルビデオデータセットを提案する。
提案したデータセットは、人間の認識によって捉えたすべての非言語コミュニケーション入力を再現する、人間の信念状態の正確なラベル付けとマルチモーダル入力からなる。
さらに,既存の深層学習モデルによるデータセットの評価を行い,各種入力モダリティとオブジェクトコンテキストの関係がベースラインモデルの性能に与える影響について新たな知見を提供する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [39.87346821309096]
本稿では,従来のSOTAと比較して性能が向上したアドレス推定モデルを提案する。
また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文 参考訳(メタデータ) (2024-05-20T13:09:32Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。