Fugu-MT 論文翻訳(概要): Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task

論文の概要: Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task

arxiv url: http://arxiv.org/abs/2404.08424v1
Date: Fri, 12 Apr 2024 12:15:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 15:06:48.534499
Title: Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task
Title（参考訳）: アップルとオレンジの比較:オブジェクト分類タスクにおけるLLMによるマルチモーダルインテンション予測
Authors: Hassan Ali, Philipp Allgeuer, Stefan Wermter,
Abstract要約: 意図に基づくヒューマンロボットインタラクション(Human-Robot Interaction, HRI)システムは、ロボットがユーザーの行動を知覚し、解釈することを可能にする。身振り,ポーズ,表情など,非言語的手がかりを解釈するための階層的アプローチを提案する。本評価は,LLMが非言語的手がかりを解釈し,文脈理解能力と組み合わせることの可能性を示すものである。
参考スコア（独自算出の注目度）: 17.190635800969456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intention-based Human-Robot Interaction (HRI) systems allow robots to perceive and interpret user actions to proactively interact with humans and adapt to their behavior. Therefore, intention prediction is pivotal in creating a natural interactive collaboration between humans and robots. In this paper, we examine the use of Large Language Models (LLMs) for inferring human intention during a collaborative object categorization task with a physical robot. We introduce a hierarchical approach for interpreting user non-verbal cues, like hand gestures, body poses, and facial expressions and combining them with environment states and user verbal cues captured using an existing Automatic Speech Recognition (ASR) system. Our evaluation demonstrates the potential of LLMs to interpret non-verbal cues and to combine them with their context-understanding capabilities and real-world knowledge to support intention prediction during human-robot interaction.
Abstract（参考訳）: インテンションベースのヒューマンロボットインタラクション(Human-Robot Interaction, HRI)システムは、ロボットがユーザーの行動を知覚し、解釈し、人間と積極的に対話し、行動に適応することを可能にする。したがって、人間とロボットの自然な対話的なコラボレーションを作成する上で、意図的な予測が重要である。本稿では,ロボットとの協調的な対象分類作業において,人間の意図を推定するためのLarge Language Models (LLMs) について検討する。本研究では,手振り,ポーズ,表情などの非言語的手がかりを解釈する階層的アプローチを導入し,既存の自動音声認識(ASR)システムを用いて取得した環境状態とユーザ言語的手がかりとを組み合わせる。我々の評価は,LLMが非言語的手がかりを解釈し,その文脈理解能力と実世界の知識とを組み合わせて,人間とロボットの相互作用における意図的予測を支援する可能性を実証するものである。

関連論文リスト

INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM [9.217332197059001]
本研究では,学習した対話的直感と自律的操作を多様なシナリオで実現可能な,新しいフレームワークINTENTIONを提案する。実世界のさまざまなタスクに対する人間的な理解と意思決定を具現化した,過去のタスクインタラクションのシーンを記録するために,メモリグラフを導入した。一方,視覚シーンから身体的関係や余裕を抽出する直感的知覚器を設計する。
論文参考訳（メタデータ） (2025-08-06T23:27:22Z)
Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces [40.44502415484082]
本研究では,人間の知覚とロボット行動のギャップを埋めるために言語を用いることを提案する。視覚言語データセットであるSocial Robot Navigation via Explainable Interactions (SNEI)を作成し、40万個の人称視覚質問回答(VQA)を特徴とする。我々は、SNEIを用いてVLM、Social-LLaVAを微調整し、データセットの実用性を実証する。
論文参考訳（メタデータ） (2024-12-30T23:59:30Z)
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文参考訳（メタデータ） (2024-10-30T17:22:45Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [39.87346821309096]
本稿では,従来のSOTAと比較して性能が向上したアドレス推定モデルを提案する。また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文参考訳（メタデータ） (2024-05-20T13:09:32Z)
Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-01-10T18:09:36Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文参考訳（メタデータ） (2023-09-08T13:29:05Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文参考訳（メタデータ） (2023-06-25T19:38:01Z)
Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文参考訳（メタデータ） (2022-03-29T15:03:05Z)
A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文参考訳（メタデータ） (2021-10-08T00:35:44Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Joint Mind Modeling for Explanation Generation in Complex Human-Robot Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文参考訳（メタデータ） (2020-07-24T23:35:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。