論文の概要: Proprioception Enhances Vision Language Model in Generating Captions and Subtask Segmentations for Robot Task
- arxiv url: http://arxiv.org/abs/2512.20876v2
- Date: Mon, 12 Jan 2026 09:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.493282
- Title: Proprioception Enhances Vision Language Model in Generating Captions and Subtask Segmentations for Robot Task
- Title(参考訳): プロプリオセプションは、ロボットタスクのキャプションとサブタスクセグメンテーションの生成における視覚言語モデルを強化する
- Authors: Kanata Suzuki, Shota Shimizu, Tetsuya Ogata,
- Abstract要約: ビジョン言語モデル(VLM)は、トレーニングデータセットにロボットからの低レベルのモーション情報を含まない。
本研究では,低レベルロボット動作情報を用いたビデオキャプションタスクにより,VLMの2つの機能を評価する。
- 参考スコア(独自算出の注目度): 3.4735198125706326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From the perspective of future developments in robotics, it is crucial to verify whether foundation models trained exclusively on offline data, such as images and language, can understand the robot motion. In particular, since Vision Language Models (VLMs) do not include low-level motion information from robots in their training datasets, video understanding including trajectory information remains a significant challenge. In this study, we assess two capabilities of VLMs through a video captioning task with low-level robot motion information: (1) automatic captioning of robot tasks and (2) segmentation of a series of tasks. Both capabilities are expected to enhance the efficiency of robot imitation learning by linking language and motion and serve as a measure of the foundation model's performance. The proposed method generates multiple "scene" captions using image captions and trajectory data from robot tasks. The full task caption is then generated by summarizing these individual captions. Additionally, the method performs subtask segmentation by comparing the similarity between text embeddings of image captions. In both captioning tasks, the proposed method aims to improve performance by providing the robot's motion data - joint and end-effector states - as input to the VLM. Simulator experiments were conducted to validate the effectiveness of the proposed method.
- Abstract(参考訳): ロボット工学の今後の発展の観点からは、画像や言語などオフラインデータにのみ訓練された基礎モデルがロボットの動きを理解できるかどうかを検証することが不可欠である。
特に、視覚言語モデル(VLM)は、トレーニングデータセットにロボットからの低レベル動作情報を含まないため、軌跡情報を含む映像理解は重要な課題である。
本研究では,ロボット動作情報を用いたビデオキャプションタスクによるVLMの2つの機能を評価する。
どちらの能力も言語と動きをリンクすることでロボット模倣学習の効率を高めることが期待され、基礎モデルの性能の指標として機能する。
提案手法は,ロボットタスクから画像キャプションと軌跡データを用いて複数の「シーン」キャプションを生成する。
次にこれらの個別のキャプションを要約して全タスクキャプションを生成する。
さらに、画像キャプションのテキスト埋め込みの類似性を比較することにより、サブタスクセグメンテーションを行う。
いずれのキャプションタスクにおいても,VLMの入力としてロボットの動作データ – 関節および端エフェクタ状態 – を付与することにより,性能の向上を図っている。
提案手法の有効性を検証するためにシミュレータ実験を行った。
関連論文リスト
- Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Style-transfer based Speech and Audio-visual Scene Understanding for
Robot Action Sequence Acquisition from Videos [40.012813353904875]
本稿では,教示ビデオからロボット行動系列を生成する手法を提案する。
そこで我々は,ロボットが調理ビデオから取得したシーケンスを実行する,様々な調理動作を行うシステムを構築した。
論文 参考訳(メタデータ) (2023-06-27T17:37:53Z) - Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments [10.356412004005767]
ロボットの行動シーケンスとその自然言語キャプションをブリッジすることは、人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
論文 参考訳(メタデータ) (2020-03-23T03:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。