論文の概要: Enhancing Explainability with Multimodal Context Representations for Smarter Robots
- arxiv url: http://arxiv.org/abs/2503.16467v1
- Date: Fri, 28 Feb 2025 13:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 08:57:20.460476
- Title: Enhancing Explainability with Multimodal Context Representations for Smarter Robots
- Title(参考訳): よりスマートなロボットのためのマルチモーダルコンテキスト表現による説明可能性の向上
- Authors: Anargh Viswanath, Lokesh Veeramacheneni, Hendrik Buschmeier,
- Abstract要約: 人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。
本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial Intelligence (AI) has significantly advanced in recent years, driving innovation across various fields, especially in robotics. Even though robots can perform complex tasks with increasing autonomy, challenges remain in ensuring explainability and user-centered design for effective interaction. A key issue in Human-Robot Interaction (HRI) is enabling robots to effectively perceive and reason over multimodal inputs, such as audio and vision, to foster trust and seamless collaboration. In this paper, we propose a generalized and explainable multimodal framework for context representation, designed to improve the fusion of speech and vision modalities. We introduce a use case on assessing 'Relevance' between verbal utterances from the user and visual scene perception of the robot. We present our methodology with a Multimodal Joint Representation module and a Temporal Alignment module, which can allow robots to evaluate relevance by temporally aligning multimodal inputs. Finally, we discuss how the proposed framework for context representation can help with various aspects of explainability in HRI.
- Abstract(参考訳): 人工知能(AI)は近年大きく進歩し、特にロボティクスにおいて、様々な分野のイノベーションを推進している。
ロボットは自律性を高めることで複雑なタスクを実行できるが、効果的なインタラクションのための説明可能性とユーザ中心の設計を保証することが課題である。
HRI(Human-Robot Interaction)の重要な問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、理屈を定め、信頼とシームレスなコラボレーションを促進することである。
本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
本稿では,ユーザからの発話とロボットの視覚的シーン認識の「関連性」を評価するユースケースを提案する。
提案手法は,複数モーダル入力を時間的に整列させることで,ロボットが関連性を評価することができるマルチモーダル共同表現モジュールとテンポラルアライメントモジュールを用いて提案する。
最後に、コンテキスト表現のためのフレームワークが、HRIにおける説明可能性の様々な側面にどのように役立つかについて議論する。
関連論文リスト
- Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models [1.534667887016089]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) の最近の進歩について検討する。
この統合により、ロボットは自然言語で与えられたコマンドを理解し、実行し、視覚的および/または記述的な入力を通じて環境を認識することができる。
本稿は、低レベル制御を探索するLLM支援型ロボット制御4つについて概説し、(ii)ロボットの内部状態を記述した言語に基づくフィードバックの生成、(iii)視覚情報の追加入力としての利用、(iv)タスク計画とフィードバックを生成するロボット構造情報の利用について述べる。
論文 参考訳(メタデータ) (2024-12-19T23:43:40Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [38.227022474450834]
本稿では,従来の最先端技術と比較して性能が向上したアドレス推定モデルを提案する。
また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文 参考訳(メタデータ) (2024-05-20T13:09:32Z) - Multi-modal perception for soft robotic interactions using generative models [2.4100803794273]
知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。
触覚や視覚などの複数の感覚モダリティの統合により、このプロセスが強化される。
本稿では,多種多様なモダリティからのデータを調和させて全体的状態表現を構築する知覚モデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:06:03Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。
目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文 参考訳(メタデータ) (2021-10-08T00:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。