論文の概要: Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction
- arxiv url: http://arxiv.org/abs/2602.14551v1
- Date: Mon, 16 Feb 2026 08:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.485172
- Title: Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction
- Title(参考訳): 意味的・物理的二重補正による視覚言語モデルによる人間-ロボット協調作業の再構築
- Authors: Taichi Kato, Takuya Kiyokawa, Namiko Saito, Kensuke Harada,
- Abstract要約: 人間-ロボット協調は、対話的でリアルタイムな人間の指示に基づいてロボットが動作を計画し調整できるようにすることによって、組み立て作業において重要な役割を果たす。
このような指示はしばしば言語的に曖昧で不明確であり、物理的に実現可能で協調的なロボット行動を生成することは困難である。
本稿では,VLMに基づく推論を二重補正機構で拡張するHRCフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.668882674013904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Robot Collaboration (HRC) plays an important role in assembly tasks by enabling robots to plan and adjust their motions based on interactive, real-time human instructions. However, such instructions are often linguistically ambiguous and underspecified, making it difficult to generate physically feasible and cooperative robot behaviors. To address this challenge, many studies have applied Vision-Language Models (VLMs) to interpret high-level instructions and generate corresponding actions. Nevertheless, VLM-based approaches still suffer from hallucinated reasoning and an inability to anticipate physical execution failures. To address these challenges, we propose an HRC framework that augments a VLM-based reasoning with a dual-correction mechanism: an internal correction model that verifies logical consistency and task feasibility prior to action execution, and an external correction model that detects and rectifies physical failures through post-execution feedback. Simulation ablation studies demonstrate that the proposed method improves the success rate compared to baselines without correction models. Our real-world experiments in collaborative assembly tasks supported by object fixation or tool preparation by an upper body humanoid robot further confirm the framewor's effectiveness in enabling interactive replanning across different collaborative tasks in response to human instructions, validating its practical feasibility.
- Abstract(参考訳): ヒューマンロボットコラボレーション(HRC)は、対話的でリアルタイムな人間の指示に基づいてロボットが動作を計画し調整できるようにすることによって、組み立て作業において重要な役割を果たす。
しかし、そのような指示はしばしば言語的に曖昧で不明確であり、物理的に実現可能で協調的なロボット行動を生成することは困難である。
この課題に対処するために、多くの研究が高レベルの命令を解釈し、対応するアクションを生成するために視覚言語モデル(VLM)を適用してきた。
それでも、VLMベースのアプローチは、まだ幻覚的な推論と、物理的な実行失敗を予測できないことに悩まされている。
これらの課題に対処するために、動作実行前の論理的一貫性とタスク実現可能性を検証する内部補正モデルと、実行後のフィードバックによって物理障害を検出し、修正する外部補正モデルとを用いて、VLMに基づく推論を二重補正機構で強化するHRCフレームワークを提案する。
シミュレーションアブレーション実験により,補正モデルのないベースラインと比較して,提案手法が成功率を向上させることが示された。
物体固定や上半身のヒューマノイドロボットによるツール作成によって支援される協調作業における現実的な実験は、人間の指示に応えて様々な協調作業のインタラクティブな再計画を可能にする上で、フレームウォーアの有効性をさらに確認し、その実用性を検証する。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration [3.4672098154671995]
ヒューマンロボットコラボレーション(HRC)では、ロボットは動的タスクの制約にオンラインで適応し、人間の意図を進化させなければならない。
本稿では,トルクベース接触力推定とタスク対応時間畳み込みネットワーク(TCN)を利用した個別タスクレベルの意図を推定する統合フレームワークTATICを提案する。
実験は意図認識において0.904 Macro-F1のスコアを獲得し、ハードウェアの検証に成功した。
論文 参考訳(メタデータ) (2026-03-10T21:19:25Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - Anticipate, Adapt, Act: A Hybrid Framework for Task Planning [18.95315033393626]
失敗を予測し、適応することは、ロボットが複雑なドメインで人間と効果的に協力する必要がある重要な能力である。
本稿では,LLMの汎用予測機能と動的影響図形言語の逐次決定機能を統合するハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T05:18:11Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Robust Planning for Human-Robot Joint Tasks with Explicit Reasoning on
Human Mental State [2.8246074016493457]
我々は,人間ロボットチームが達成するための既知の目的を持った共有タスクを与えられる,人間に意識したタスク計画問題を考える。
近年のアプローチでは、ロボットが両方のエージェント(共有された)タスクを計画する独立した合理的エージェントのチームとしてそれをモデル化している。
本稿では,実行時の可観測性規約をモデル化し,使用するための新しいアプローチについて述べる。
論文 参考訳(メタデータ) (2022-10-17T09:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。