論文の概要: RoboSSM: Scalable In-context Imitation Learning via State-Space Models
- arxiv url: http://arxiv.org/abs/2509.19658v1
- Date: Wed, 24 Sep 2025 00:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.642306
- Title: RoboSSM: Scalable In-context Imitation Learning via State-Space Models
- Title(参考訳): RoboSSM: 状態空間モデルによるスケーラブルなインコンテキスト模倣学習
- Authors: Youngju Yoo, Jiaheng Hu, Yifeng Zhu, Bo Liu, Qiang Liu, Roberto Martín-Martín, Peter Stone,
- Abstract要約: In-context mimicion Learning (ICIL)は、ロボットがほんのわずかのデモンストレーションからなるプロンプトからタスクを学習することを可能にする。
近年のICIL法は計算量制限のあるトランスフォーマーに依存している。
状態空間モデルに基づくテキスト内模倣学習のためのスケーラブルなレシピであるRoboSSMを紹介する。
- 参考スコア(独自算出の注目度): 35.91619896213736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context imitation learning (ICIL) enables robots to learn tasks from prompts consisting of just a handful of demonstrations. By eliminating the need for parameter updates at deployment time, this paradigm supports few-shot adaptation to novel tasks. However, recent ICIL methods rely on Transformers, which have computational limitations and tend to underperform when handling longer prompts than those seen during training. In this work, we introduce RoboSSM, a scalable recipe for in-context imitation learning based on state-space models (SSM). Specifically, RoboSSM replaces Transformers with Longhorn -- a state-of-the-art SSM that provides linear-time inference and strong extrapolation capabilities, making it well-suited for long-context prompts. We evaluate our approach on the LIBERO benchmark and compare it against strong Transformer-based ICIL baselines. Experiments show that RoboSSM extrapolates effectively to varying numbers of in-context demonstrations, yields high performance on unseen tasks, and remains robust in long-horizon scenarios. These results highlight the potential of SSMs as an efficient and scalable backbone for ICIL. Our code is available at https://github.com/youngjuY/RoboSSM.
- Abstract(参考訳): In-context mimicion Learning (ICIL)は、ロボットがほんのわずかのデモンストレーションからなるプロンプトからタスクを学習することを可能にする。
デプロイメント時にパラメータ更新を不要にすることで、このパラダイムは新規タスクへの少数ショット適応をサポートする。
しかし、最近のICIL法は、計算上の制限があり、トレーニング中に見られるものよりも長いプロンプトを扱う場合、性能が劣るトランスフォーマーに依存している。
本研究では,状態空間モデル(SSM)に基づくテキスト内模倣学習のためのスケーラブルなレシピであるRoboSSMを紹介する。
具体的には、RoboSSMはTransformersをLonghornに置き換える。これは、線形時間推論と強力な外挿機能を提供する最先端のSSMで、長文のプロンプトに適している。
我々は、LIBEROベンチマークに対する我々のアプローチを評価し、強力なTransformerベースのICILベースラインと比較した。
実験の結果、RoboSSMは様々なコンテキスト内デモを効果的に外挿し、目に見えないタスクで高いパフォーマンスを示し、長期のシナリオでは堅牢であることがわかった。
これらの結果は、ICILの効率的でスケーラブルなバックボーンとしてのSSMの可能性を強調している。
私たちのコードはhttps://github.com/youngjuY/RoboSSM.comで利用可能です。
関連論文リスト
- Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。