Fugu-MT 論文翻訳(概要): AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation

論文の概要: AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation

arxiv url: http://arxiv.org/abs/2603.15046v1
Date: Mon, 16 Mar 2026 09:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:57.994384
Title: AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation
Title（参考訳）: AnoleVLA:移動操作のための深部状態空間モデルを用いた軽量ビジョンランゲージ・アクションモデル
Authors: Yusuke Takagi, Motonari Kambara, Daichi Yashima, Koki Seno, Kento Tokura, Komei Sugiura,
Abstract要約: VLA(Vision-Language-Action Model)は,この課題に対して強力な性能を示す。しかし、標準的なトランスフォーマーバックボーンの計算コストのため、リソース制約のある環境への展開は依然として困難である。本稿では,マルチモーダルシーケンスを効率的に処理するために,奥行き状態空間モデルを用いた軽量VLAであるAnoleVLAを提案する。
参考スコア（独自算出の注目度）: 2.2357163812666716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we address the problem of language-guided robotic manipulation, where a robot is required to manipulate a wide range of objects based on visual observations and natural language instructions. This task is essential for service robots that operate in human environments, and requires safety, efficiency, and task-level generality. Although Vision-Language-Action models (VLAs) have demonstrated strong performance for this task, their deployment in resource-constrained environments remains challenging because of the computational cost of standard transformer backbones. To overcome this limitation, we propose AnoleVLA, a lightweight VLA that uses a deep state space model to process multimodal sequences efficiently. The model leverages its lightweight and fast sequential state modeling to process visual and textual inputs, which allows the robot to generate trajectories efficiently. We evaluated the proposed method in both simulation and physical experiments. Notably, in real-world evaluations, AnoleVLA outperformed a representative large-scale VLA by 21 points for the task success rate while achieving an inference speed approximately three times faster.
Abstract（参考訳）: 本研究では,視覚的観察と自然言語の指示に基づいて,ロボットが幅広い物体を操作する必要がある言語誘導型ロボット操作の問題に対処する。このタスクは、人間の環境で動作し、安全性、効率、タスクレベルの汎用性を必要とするサービスロボットにとって不可欠である。 Vision-Language-Action Model (VLA) は、このタスクに対して強力な性能を示したが、標準的なトランスフォーマーバックボーンの計算コストのため、リソース制約のある環境への展開は難しいままである。この制限を克服するために,奥行き空間モデルを用いてマルチモーダルシーケンスを効率的に処理する軽量VLAであるAnoleVLAを提案する。このモデルは、軽量で高速なシーケンシャルな状態モデリングを利用して、視覚的およびテキスト的な入力を処理する。シミュレーションと物理実験の両方において提案手法の評価を行った。特に実世界の評価では、AnoleVLAはタスク成功率を21ポイント上回り、推論速度はおよそ3倍速かった。

関連論文リスト

RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation [68.7948300643741]
ロボットの異常検出と介入をリアルタイムに監視するロボット・コンディションド・ノーマライゼーション・フロー(RC-NF)を提案する。 RC-NFは、正規化フロー内のタスク認識ロボットとオブジェクト状態の処理を分離する。従来のロボットタスクの監視方法と比較して、あらゆる異常なタイプで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-03-11T10:14:37Z)
Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文参考訳（メタデータ） (2025-06-16T16:34:20Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。