Fugu-MT 論文翻訳(概要): An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction

論文の概要: An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2602.20219v1
Date: Mon, 23 Feb 2026 09:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.474418
Title: An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction
Title（参考訳）: 人-ロボットインタラクションにおけるビデオと音声と大言語モデルの組み合わせ
Authors: Guanting Shen, Zi Tian,
Abstract要約: 本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Interpreting human intent accurately is a central challenge in human-robot interaction (HRI) and a key requirement for achieving more natural and intuitive collaboration between humans and machines. This work presents a novel multimodal HRI framework that combines advanced vision-language models, speech processing, and fuzzy logic to enable precise and adaptive control of a Dobot Magician robotic arm. The proposed system integrates Florence-2 for object detection, Llama 3.1 for natural language understanding, and Whisper for speech recognition, providing users with a seamless and intuitive interface for object manipulation through spoken commands. By jointly addressing scene perception and action planning, the approach enhances the reliability of command interpretation and execution. Experimental evaluations conducted on consumer-grade hardware demonstrate a command execution accuracy of 75\%, highlighting both the robustness and adaptability of the system. Beyond its current performance, the proposed architecture serves as a flexible and extensible foundation for future HRI research, offering a practical pathway toward more sophisticated and natural human-robot collaboration through tightly coupled speech and vision-language processing.
Abstract（参考訳）: 人間の意図を正確に解釈することは、人間とロボットの相互作用(HRI)における中心的な課題であり、人間と機械の間のより自然で直感的なコラボレーションを達成するための重要な要件である。本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせて,ロボットアームDobot Magicianの高精度かつ適応的な制御を可能にする,新しい多モードHRIフレームワークを提案する。提案システムは、オブジェクト検出のためのFlorence-2、自然言語理解のためのLlama 3.1、音声認識のためのWhisperを統合し、音声コマンドによるオブジェクト操作のためのシームレスで直感的なインターフェースを提供する。シーン認識とアクションプランニングを併用することで、コマンドの解釈と実行の信頼性を高めることができる。コンシューマグレードのハードウェアで行った実験では、コマンド実行精度が75\%であることが示され、システムの堅牢性と適応性の両方を強調した。提案されたアーキテクチャは、現在のパフォーマンスを超えて、将来のHRI研究の柔軟で拡張可能な基盤として機能し、密結合された音声と視覚言語処理を通じて、より高度で自然な人間とロボットのコラボレーションへの実践的な経路を提供する。

関連論文リスト

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation [1.4175612723267692]
人間のロボット同士の対話を直感的に行うための,最初の手話駆動型ビジョン・ランゲージ・アクション(VLA)フレームワークを提案する。中間管理として光沢アノテーションを頼りにしている従来の手法とは異なり、提案システムは光沢のないパラダイムを採用する。我々は,ロボット制御のためのロバストで低遅延な通信チャネルを提供する,リアルタイムのアルファベットレベルフィンガースペルインタフェースに注力する。
論文参考訳（メタデータ） (2026-02-26T01:16:27Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
Learning to Generate Pointing Gestures in Situated Embodied Conversational Agents [19.868403110796105]
本稿では,模倣と強化学習を組み合わせることで,具体的エージェントのポインティングジェスチャーを生成する枠組みを提案する。我々は,客観的指標と仮想空間的参照ゲームの両方において,教師付き学習と検索のベースラインに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-09-15T23:15:15Z)
Interpretable Robot Control via Structured Behavior Trees and Large Language Models [0.14990005092937678]
本稿では,自然言語理解とロボット実行を橋渡しする新しい枠組みを提案する。提案手法は実世界のシナリオでは実用的であり、平均的な認識と実行の精度は約94%である。
論文参考訳（メタデータ） (2025-08-13T08:53:13Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models [50.19518681574399]
現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測することである。我々は、事前学習された視覚言語モデルに埋め込まれたコモンセンス知識を活用する、支援型遠隔操作システムであるCasperを紹介する。我々は,Casperがタスク性能を改善し,人間の認知負荷を低減し,直接遠隔操作や補助遠隔操作のベースラインよりもユーザ満足度が高いことを示す。
論文参考訳（メタデータ） (2025-06-17T17:06:43Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文参考訳（メタデータ） (2024-04-12T12:15:14Z)
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文参考訳（メタデータ） (2023-11-07T08:27:32Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文参考訳（メタデータ） (2020-04-11T12:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。