論文の概要: A Survey on Improving Human Robot Collaboration through Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2512.00027v1
- Date: Thu, 06 Nov 2025 07:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.393853
- Title: A Survey on Improving Human Robot Collaboration through Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションによるロボットの協調作業改善に関する調査研究
- Authors: Nivedan Yakolli, Avinash Gautam, Abhijit Das, Yuankai Qi, Virendra Singh Shekhawat,
- Abstract要約: Vision-and-Language Navigation (VLN) は、エージェントが人間の指示を解釈し、3D環境をナビゲートし、あいまいさの下で効果的にコミュニケーションすることを必要とするマルチモーダルで協調的なタスクである。
進歩にもかかわらず、現在のモデルは多エージェントシステムにおける双方向通信、あいまいさ解決、協調的な意思決定に苦慮している。
我々は,今後のVLNシステムは,高度な自然言語理解(NLU)技術を通じて,積極的な明確化,リアルタイムフィードバック,文脈推論をサポートするべきであると提唱する。
- 参考スコア(独自算出の注目度): 15.559371441886363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) is a multi-modal, cooperative task requiring agents to interpret human instructions, navigate 3D environments, and communicate effectively under ambiguity. This paper presents a comprehensive review of recent VLN advancements in robotics and outlines promising directions to improve multi-robot coordination. Despite progress, current models struggle with bidirectional communication, ambiguity resolution, and collaborative decision-making in the multi-agent systems. We review approximately 200 relevant articles to provide an in-depth understanding of the current landscape. Through this survey, we aim to provide a thorough resource that inspires further research at the intersection of VLN and robotics. We advocate that the future VLN systems should support proactive clarification, real-time feedback, and contextual reasoning through advanced natural language understanding (NLU) techniques. Additionally, decentralized decision-making frameworks with dynamic role assignment are essential for scalable, efficient multi-robot collaboration. These innovations can significantly enhance human-robot interaction (HRI) and enable real-world deployment in domains such as healthcare, logistics, and disaster response.
- Abstract(参考訳): Vision-and-Language Navigation (VLN) は、エージェントが人間の指示を解釈し、3D環境をナビゲートし、あいまいさの下で効果的にコミュニケーションすることを必要とするマルチモーダルで協調的なタスクである。
本稿では,ロボット工学における最近のVLNの進歩を概観し,ロボットの協調性向上に向けた将来性について概説する。
進歩にもかかわらず、現在のモデルは多エージェントシステムにおける双方向通信、あいまいさ解決、協調的な意思決定に苦慮している。
約200の関連論文をレビューし、現在の景観の詳細な理解を提供する。
本調査は,VLNとロボティクスの交差点におけるさらなる研究を促すための,詳細なリソースの提供を目的としている。
我々は,今後のVLNシステムは,高度な自然言語理解(NLU)技術を通じて,積極的な明確化,リアルタイムフィードバック,文脈推論をサポートするべきであると提唱する。
さらに、動的ロール割り当てを備えた分散意思決定フレームワークは、スケーラブルで効率的なマルチロボットコラボレーションに不可欠である。
これらのイノベーションは、ヒューマンロボットインタラクション(HRI)を大幅に強化し、医療、ロジスティクス、災害対応といった分野における現実世界のデプロイを可能にします。
関連論文リスト
- Intuitive Programming, Adaptive Task Planning, and Dynamic Role Allocation in Human-Robot Collaboration [28.96294944351617]
このレビューでは、人間とロボット間の直感的な情報交換とスキル伝達を可能にする重要なコンポーネントを特定し、接続する。
マルチモーダル入力をロボットに理解可能な表現に変換する人間とロボットのコミュニケーションブリッジから、完全なインタラクションパイプラインについて検討する。
論文 参考訳(メタデータ) (2025-11-11T19:49:30Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - Enhancing Explainability with Multimodal Context Representations for Smarter Robots [0.0]
人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。
本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T13:36:47Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - Position: Towards Bidirectional Human-AI Alignment [109.57781720848669]
我々は、人間とAIの双方向的・動的関係を説明するために、研究コミュニティは「調整」を明確に定義し、批判的に反映すべきであると主張する。
このフレームワークは、AIと人間の価値を整合させる従来の取り組みを取り入れているだけでなく、人間とAIを整合させるという、重要で未解明の次元も導入しています。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions [23.389491536958772]
VLN(Vision-and-Language Navigation)は、この目標に向けた基本的な、学際的な研究テーマである。
VLNは自然言語処理、コンピュータビジョン、ロボティクス、機械学習コミュニティから注目を集めている。
本稿では,VLN研究コミュニティの詳細な参照として機能する。
論文 参考訳(メタデータ) (2022-03-22T16:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。