論文の概要: RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2508.02062v1
- Date: Mon, 04 Aug 2025 05:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.180205
- Title: RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models
- Title(参考訳): RICL:事前学習型ビジョンランゲージ・アクションモデルに文脈適応性を加える
- Authors: Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, Insup Lee,
- Abstract要約: VLA(Multi-task vision-action')モデルは、ロボティクスのジェネラリスト基盤モデルとして、近年の公約を実証している。
そのようなモデルが本当に有用であるためには、エンドユーザは簡単に改善を教える手段を持っていなければなりません。
言語モデルや視覚モデルでは、コンテキスト内学習(ICL)を実行する能力は、新しいタスクを簡単に教えるための汎用的なインターフェースであることが証明されている。
- 参考スコア(独自算出の注目度): 20.826907313227323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task ``vision-language-action'' (VLA) models have recently demonstrated increasing promise as generalist foundation models for robotics, achieving non-trivial performance out of the box on new tasks in new environments. However, for such models to be truly useful, an end user must have easy means to teach them to improve. For language and vision models, the emergent ability to perform in-context learning (ICL) has proven to be a versatile and highly useful interface to easily teach new tasks with no parameter finetuning. Unfortunately, VLAs pre-trained with imitation learning objectives do not naturally acquire ICL abilities. In this paper, we demonstrate that, with the right finetuning recipe and a small robot demonstration dataset, it is possible to inject in-context adaptability post hoc into such a VLA. After retraining for in-context learning (RICL), our system permits an end user to provide a small number (10-20) of demonstrations for a new task. RICL then fetches the most relevant portions of those demonstrations into the VLA context to exploit ICL, performing the new task and boosting task performance. We apply RICL to inject ICL into the $\pi_{0}$-FAST VLA, and show that it permits large in-context improvements for a variety of new manipulation tasks with only 20 demonstrations per task, without any parameter updates. When parameter updates on the target task demonstrations is possible, RICL finetuning further boosts performance. We release code and model weights for RICL-$\pi_{0}$-FAST alongside the paper to enable, for the first time, a simple in-context learning interface for new manipulation tasks. Website: https://ricl-vla.github.io.
- Abstract(参考訳): マルチタスク ‘ビジョン・ランゲージ・アクション’ (VLA) モデルは最近、ロボット工学のジェネラリスト基盤モデルとして、新しい環境における新しいタスクにおいて、最初から非自明なパフォーマンスを達成している。
しかし、そのようなモデルが本当に役に立つためには、エンドユーザは簡単に改善を教える手段を持っていなければなりません。
言語や視覚モデルでは、テキスト内学習(ICL)を創発的に行う能力は、パラメータを微調整することなく、新しいタスクを簡単に教えるための汎用的で、非常に有用なインターフェースであることが証明されている。
残念ながら、模倣学習目的で事前訓練されたVLAは、ICL能力を自然に獲得するわけではない。
本稿では、適切な微調整のレシピと小さなロボットのデモデータセットを用いて、このようなVLAに文脈内適応性を注入できることを実証する。
In-context Learning (RICL) の再訓練の後、エンドユーザーが新しいタスクに対して少数のデモ(10~20)を行えるようにした。
RICLは、これらのデモの最も関連性の高い部分をVLAコンテキストにフェッチして、ICLを利用し、新しいタスクを実行し、タスクパフォーマンスを向上する。
We apply RICL to inject ICL into the $\pi_{0}$-FAST VLA, and shows that it can have large in-context improvements for various new operation task with only 20 demonstrations per task, without any parameter updates。
ターゲットタスクのデモのパラメータ更新が可能になった場合、RICLの微調整によりパフォーマンスがさらに向上する。
RICL-$\pi_{0}$-FASTのコードとモデルウェイトを論文と共にリリースし、新しい操作タスクのためのシンプルなコンテキスト内学習インターフェイスを初めて実現しました。
ウェブサイト:https://ricl-vla.github.io
関連論文リスト
- Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning? [7.827653846113951]
大規模視覚言語モデル(VLM)は多くのコンピュータビジョンタスクの最先端技術となっている。
本稿では,空間的視覚曖昧性タスク (SVAT) と呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-25T16:45:02Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Learning without Forgetting for Vision-Language Models [86.53237963364754]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。