論文の概要: Lightweight Visual Reasoning for Socially-Aware Robots
- arxiv url: http://arxiv.org/abs/2603.03942v1
- Date: Wed, 04 Mar 2026 11:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.886953
- Title: Lightweight Visual Reasoning for Socially-Aware Robots
- Title(参考訳): 社会に配慮したロボットのための軽量ビジュアル推論
- Authors: Alessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano,
- Abstract要約: 視覚言語モデル(VLM)におけるLLMとビジョンエンコーダのループを閉じる軽量な言語間フィードバックモジュールを提案する。
本研究では,シミュレーション環境におけるナビゲーション,シーン記述の逐次的記述,人間意図認識という,ロボット中心の3つのタスクに対して,このアプローチを評価する。
その結果,Qwen 2.5 (7B) を$3.3%(非距離),$+0.057$記述スコア,$+2.93%$精度で改善し,さらに$3%未満のパラメータが得られた。
- 参考スコア(独自算出の注目度): 41.776442767736604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in shared human environments must not only navigate, interact, and detect their surroundings, they must also interpret and respond to dynamic, and often unpredictable, human behaviours. Although recent advances have shown promise in enhancing robotic perception and instruction-following using Vision-Language Models (VLMs), they remain limited in addressing the complexities of multimodal human-robot interactions (HRI). Motivated by this challenge, we introduce a lightweight language-to-vision feedback module that closes the loop between an LLM and the vision encoder in VLMs. The module projects image-token hidden states through a gated Multi-Layer Perceptron (MLP) back into the encoder input, prompting a second pass that reinterprets the scene under text context. We evaluate this approach on three robotics-centred tasks: navigation in a simulated environment (Habitat), sequential scene description (Mementos-Robotics), and human-intention recognition (our HRI dataset). Results show that our method improves Qwen 2.5 (7B) by $3.3\%$ (less distance), $+0.057$ description score, and $+2.93\%$ accuracy, with less than $3\%$ extra parameters; Gemma 3 (4B) and LLaVA OV 1.5 (4B) show mixed navigation results but gains $+0.111,+0.055$ and $+10.81\%,+4.79\%$ on the latter two tasks. Code is available at https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics
- Abstract(参考訳): 共有された人間の環境で動作しているロボットは、周囲をナビゲートし、対話し、検出するだけでなく、動的で予測不可能な人間の振る舞いを解釈し、応答する必要がある。
近年の進歩は、視覚言語モデル(VLM)を用いたロボット知覚と指示追従の強化を約束しているが、マルチモーダルな人間-ロボット相互作用(HRI)の複雑さに対処することには限界がある。
この課題に乗じて,LLMとVLMの視覚エンコーダのループを閉じる,軽量な言語間フィードバックモジュールを導入する。
モジュールは、エンコーダ入力にゲートされたMulti-Layer Perceptron (MLP)を通して隠された状態を投影し、テキストコンテキスト下でシーンを再解釈する第2のパスを発行する。
本研究では,シミュレーション環境におけるナビゲーション(Habitat),逐次シーン記述(Mementos-Robotics),人間意図認識(HRIデータセット)の3つのタスクに対して,このアプローチを評価する。
その結果,Qwen 2.5 (7B) を (3.3 %$ (無距離),$+0.057$説明スコア,$+2.93\%$精度で 3 %$余剰パラメータ以下で改善し,Gemma 3 (4B) と LLaVA OV 1.5 (4B) は混合ナビゲーション結果を示すが,後者の2つのタスクでは$+0.111,+0.055$,$+10.81\%,$+4.79\%が得られた。
コードはhttps://github.com/alessioGalatolo/VLM-Reasoning-for-Roboticsで公開されている。
関連論文リスト
- SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding [78.12178144115224]
ロボットファウンデーションモデル(RFMs)は、ロボット制御のための汎用的なエンドツーエンドシステムとして大きな可能性を秘めている。
本稿では,3次元アノテーションを用いた非ロボティックな画像データの統合と,3次元理解機能を備えた事前学習VLMの強化を提案する。
我々は,基礎となる3次元認識と言語による具体化制御を統合したロボット基礎モデルであるtextbfSPEAR-1$を紹介した。
論文 参考訳(メタデータ) (2025-11-21T17:09:43Z) - RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets [15.349107660229356]
VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。
本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを紹介する。
実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
論文 参考訳(メタデータ) (2025-05-21T13:42:52Z) - Robotic Visual Instruction [10.110333805611974]
ロボット視覚指導(RoVI)を導入し,ロボット作業の指導を行う。
RoVIは時空間情報を人間の解釈可能な視覚命令にエンコードする。
ロボットがRoVIをよりよく理解できるように、視覚インストラクション・エンボダイド(VIEW)を提案する。
論文 参考訳(メタデータ) (2025-05-01T17:55:05Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。