論文の概要: SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM
- arxiv url: http://arxiv.org/abs/2603.08269v1
- Date: Mon, 09 Mar 2026 11:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.884956
- Title: SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM
- Title(参考訳): SAIL: VLMを用いたインコンテキスト模倣学習のためのテスト時間スケーリング
- Authors: Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki,
- Abstract要約: インコンテキストの模倣学習は、ロボットがデモからスキルを習得することを可能にするが、一方の軌跡生成は環境変動下でも脆弱である。
本稿では,ロボットの模倣を,テスト時間計算でスケール可能な反復的改良問題として再編成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.04193602666315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context imitation learning allows robots to acquire skills from demonstrations, yet one-shot trajectory generation remains fragile under environmental variation. We propose SAIL, a framework that reframes robot imitation as an iterative refinement problem capable of scaling with test-time compute. SAIL utilizes Monte Carlo Tree Search, where each node is a complete trajectory and edges correspond to trajectory refinements. The process is guided by three core components: an automated archive of successful trajectories for contextually relevant retrieval, a vision language model-based scoring mechanism for trajectory evaluation, and a step-level feedback that provides trajectory-aligned scores for iterative refinement. Experiments across six diverse manipulation tasks in simulation and real-world validation clearly demonstrate that increasing test-time compute consistently improves success rates, achieving up to 95% on complex tasks. Our results suggest that trajectory-level test-time scaling is a robust path toward more generalizable robotic agents.
- Abstract(参考訳): インコンテキストの模倣学習は、ロボットがデモからスキルを習得することを可能にするが、一方の軌跡生成は環境変動下でも脆弱である。
本研究では,ロボットの模倣を,テスト時間計算でスケール可能な反復的改良問題として再設計するフレームワークであるSAILを提案する。
SAILはモンテカルロ木探索を用いており、各ノードは完全な軌道であり、エッジは軌道修正に対応する。
このプロセスは、3つのコアコンポーネントによってガイドされる: 文脈的に関連づけられた検索のための軌道の自動アーカイブ、軌跡評価のための視覚言語モデルに基づくスコアリング機構、反復的洗練のための軌道整合スコアを提供するステップレベルのフィードバック。
シミュレーションと実世界の検証における6つの多様な操作タスクに対する実験は、テスト時間計算の増加が成功率を継続的に改善し、複雑なタスクで最大95%を達成することを明らかに示している。
以上の結果から,軌道レベルのテストタイムスケーリングは,より一般化可能なロボットエージェントへの堅牢な道のりであることが示唆された。
関連論文リスト
- Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文 参考訳(メタデータ) (2026-03-02T17:38:58Z) - Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation [54.945281159783896]
Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。
本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T02:52:18Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - STeCa: Step-level Trajectory Calibration for LLM Agent Learning [9.678098205818566]
大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:28:44Z) - A Backbone for Long-Horizon Robot Task Understanding [8.889888977376886]
Therblig-Based Backbone Framework (TBBF)は、ロボットシステムにおける解釈可能性、データ効率、一般化を強化する構造である。
TBBFは、専門家によるデモンストレーションを利用して、rbligレベルのタスク分解を可能にする。
オフライントレーニングの段階において,正確なソルビグセグメンテーションのためのMeta-RGate SynerFusionネットワークを開発した。
オンラインテストの段階では、新しいタスクのワンショットデモが収集された後、MGSFネットワークは高いレベルの知識を抽出する。
論文 参考訳(メタデータ) (2024-08-02T15:32:42Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Deep Learning Traversability Estimator for Mobile Robots in Unstructured
Environments [11.042142015353626]
本稿では,高度図や軌道図からエンドツーエンドで学習し,故障発生を推定する深層学習フレームワークを提案する。
アプリケーションに依存しない事前学習モデルの転送と微調整は、ほとんど利用可能な実データに基づいて一意にトレーニングするよりも優れた性能を保っていることを示す。
論文 参考訳(メタデータ) (2021-05-23T13:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。