論文の概要: The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning
- arxiv url: http://arxiv.org/abs/2603.20164v1
- Date: Fri, 20 Mar 2026 17:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.261287
- Title: The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning
- Title(参考訳): ロボットの内的批判:VLMによる社会行動の自己抑制
- Authors: Jiyu Lim, Youngwoo Yoon, Kwanghyun Park,
- Abstract要約: CRISP(Critique-and-Replan for Interactive Social Presence)は、ロボットが自身の行動を批判し、再計画する自律的なフレームワークである。
CRISPは,(1)ロボットの記述ファイルを解析して可動関節と制約を抽出する。
ロボットの構造ファイルだけを使って、さまざまなプラットフォーム上で微妙に異なる人間的な動きを生成できる。
- 参考スコア(独自算出の注目度): 2.38295275136047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional robot social behavior generation has been limited in flexibility and autonomy, relying on predefined motions or human feedback. This study proposes CRISP (Critique-and-Replan for Interactive Social Presence), an autonomous framework where a robot critiques and replans its own actions by leveraging a Vision-Language Model (VLM) as a `human-like social critic.' CRISP integrates (1) extraction of movable joints and constraints by analyzing the robot's description file (e.g., MJCF), (2) generation of step-by-step behavior plans based on situational context, (3) generation of low-level joint control code by referencing visual information (joint range-of-motion visualizations), (4) VLM-based evaluation of social appropriateness and naturalness, including pinpointing erroneous steps, and (5) iterative refinement of behaviors through reward-based search. This approach is not tied to a specific robot API; it can generate subtly different, human-like motions on various platforms using only the robot's structure file. In a user study involving five different robot types and 20 scenarios, including mobile manipulators and humanoids, our proposed method achieved significantly higher preference and situational appropriateness ratings compared to previous methods. This research presents a general framework that minimizes human intervention while expanding the robot's autonomous interaction capabilities and cross-platform applicability. Detailed result videos and supplementary information regarding this work are available at: https://limjiyu99.github.io/inner-critic/
- Abstract(参考訳): 従来のロボットの社会的行動生成は柔軟性と自律性に制限されており、事前に定義された動きや人間のフィードバックに依存している。
本研究では,視覚言語モデル(VLM)を「人間的な社会評論家」として活用することにより,ロボットが自身の行動を批判し,計画する自律的枠組みであるCRISP(Critique-and-Replan for Interactive Social Presence)を提案する。
「CRISP」は、(1)ロボットの記述ファイル(例えば、MJCF)を分析して可動関節と制約の抽出、(2)状況に応じたステップバイステップ動作計画の生成、(3)視覚情報を参照して低レベル関節制御コードの生成、(4)VLMに基づく社会的適切性・自然性の評価、(5)報酬に基づく探索による行動の反復的洗練、を統合する。
このアプローチは、特定のロボットAPIとは結びついていない。ロボットの構造ファイルのみを使用して、さまざまなプラットフォーム上で微妙に異なる人間の様の動きを生成することができる。
移動マニピュレータやヒューマノイドを含む5つの異なるロボットタイプと20のシナリオを含むユーザスタディにおいて,提案手法は従来手法と比較して高い嗜好と状況適合性評価を実現した。
本研究は,ロボットの自律的インタラクション能力とクロスプラットフォーム適用性を拡張しつつ,人間の介入を最小限に抑える汎用フレームワークを提案する。
この作業に関する詳細な結果ビデオと追加情報は、https://limjiyu99.github.io/inner-critic/.com/で公開されている。
関連論文リスト
- Detection and Recognition: A Pairwise Interaction Framework for Mobile Service Robots [2.895170564353903]
サービスロボットは、安全で社会的に認識されたナビゲーションをサポートするために、地元の人間と人間のインタラクションを推論する必要がある。
ロボット中心の社会理解において,人間同士の相互作用は最小でも十分な知覚単位である,と我々は主張する。
そこで我々は,軽量な幾何学的および運動的手がかりに基づいて,まず相互作用する候補を識別する2段階の枠組みを採用した。
論文 参考訳(メタデータ) (2026-02-25T19:12:07Z) - From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction [4.276453870301421]
社会ロボットの意思決定プロセスを改善するために,トランスフォーマーを用いたマルチタスク学習フレームワークを提案する。
我々は、視線ずれなどの現実世界の複雑さを捉えた、新しい多人数HRIデータセットを構築した。
本研究は,自然とコンテキストを意識した多人数インタラクションを実現できる社会知能型社会ロボットの開発に寄与する。
論文 参考訳(メタデータ) (2025-07-15T03:42:14Z) - Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces [40.44502415484082]
本研究では,人間の知覚とロボット行動のギャップを埋めるために言語を用いることを提案する。
視覚言語データセットであるSocial Robot Navigation via Explainable Interactions (SNEI)を作成し、40万個の人称視覚質問回答(VQA)を特徴とする。
我々は、SNEIを用いてVLM、Social-LLaVAを微調整し、データセットの実用性を実証する。
論文 参考訳(メタデータ) (2024-12-30T23:59:30Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction [9.806227900768926]
本稿では,共有ロボット表現空間における社会的動き予測のモデル化を提案する。
ECHOは上記の共有空間で活動し、社会的シナリオで遭遇したエージェントの将来の動きを予測する。
我々は,多対人動作予測タスクにおけるモデルの評価を行い,最先端の性能を大きなマージンで獲得する。
論文 参考訳(メタデータ) (2024-02-07T11:37:14Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。