Fugu-MT 論文翻訳(概要): A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study

論文の概要: A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study

arxiv url: http://arxiv.org/abs/2601.16870v1
Date: Fri, 23 Jan 2026 16:22:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.921412
Title: A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study
Title（参考訳）: 曖昧さを明確化する対話型補助ロボットのためのマルチモーダルデータ収集フレームワーク:Ozパイロット研究
Authors: Guangping Liu, Nicholas Hawkins, Billy Madden, Tipu Sultan, Flavio Esposito, Madi Babaiasl,
Abstract要約: 車椅子と車椅子搭載ロボットアーム(WMRA)の統合制御は、激しい運動制限のある利用者の独立性を高める強い可能性を持っている。データ駆動型AI手法は将来性を示すが、自然な人間-ロボットインタラクション(HRI)をキャプチャするマルチモーダルデータセットの欠如によって進歩は制限されている。本稿では,対話に基づく対話プロトコルと,ロボットの自律性をシミュレートするための2部屋Wizard-of-Oz(WoZ)セットアップを利用するマルチモーダルデータ収集フレームワークを提案する。
参考スコア（独自算出の注目度）: 1.9655734270449854
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Integrated control of wheelchairs and wheelchair-mounted robotic arms (WMRAs) has strong potential to increase independence for users with severe motor limitations, yet existing interfaces often lack the flexibility needed for intuitive assistive interaction. Although data-driven AI methods show promise, progress is limited by the lack of multimodal datasets that capture natural Human-Robot Interaction (HRI), particularly conversational ambiguity in dialogue-driven control. To address this gap, we propose a multimodal data collection framework that employs a dialogue-based interaction protocol and a two-room Wizard-of-Oz (WoZ) setup to simulate robot autonomy while eliciting natural user behavior. The framework records five synchronized modalities: RGB-D video, conversational audio, inertial measurement unit (IMU) signals, end-effector Cartesian pose, and whole-body joint states across five assistive tasks. Using this framework, we collected a pilot dataset of 53 trials from five participants and validated its quality through motion smoothness analysis and user feedback. The results show that the framework effectively captures diverse ambiguity types and supports natural dialogue-driven interaction, demonstrating its suitability for scaling to a larger dataset for learning, benchmarking, and evaluation of ambiguity-aware assistive control.
Abstract（参考訳）: 車椅子と車椅子搭載ロボットアーム(WMRA)の統合制御は、激しい運動制限のあるユーザーの独立性を高める強い可能性を持っているが、既存のインタフェースは直感的な補助的相互作用に必要な柔軟性を欠いていることが多い。データ駆動型AI手法は将来性を示すが、自然なヒューマンロボットインタラクション(HRI)を捉えるマルチモーダルデータセットの欠如、特に対話駆動型制御における会話の曖昧さによって進歩は制限されている。このギャップに対処するため,対話型インタラクションプロトコルと2部屋のWizard-of-Oz(WoZ)セットアップを併用したマルチモーダルデータ収集フレームワークを提案する。このフレームワークは、RGB-Dビデオ、会話音声、慣性測定ユニット(IMU)信号、エンドエフェクター・カルテシアン・ポーズ、および5つの補助作業にわたる全身関節状態の5つの同期モードを記録する。このフレームワークを用いて、5人の被験者から53回の試行のパイロットデータセットを収集し、動作の滑らかさ分析とユーザフィードバックを通じてその品質を検証した。その結果、このフレームワークは多様なあいまいさタイプを効果的に把握し、自然な対話駆動インタラクションをサポートし、学習、ベンチマーク、あいまいさ認識支援制御評価のためのより大きなデータセットへのスケーリングに適していることが示された。

関連論文リスト

An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文参考訳（メタデータ） (2026-02-23T09:05:15Z)
One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-05T14:39:59Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
A Framework for Adapting Human-Robot Interaction to Diverse User Groups [16.17512394063696]
適応型ロボットインタラクション(HRI)のための新しいフレームワークを提案する。私たちの主な貢献は、オープンソースのコードベースを備えた適応型ROSベースのHRIフレームワークの開発です。このフレームワークは、高度な音声認識と音声活動検出を通じて、自然な相互作用をサポートする。
論文参考訳（メタデータ） (2024-10-15T08:16:43Z)
A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。 VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。