論文の概要: TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.25547v1
- Date: Mon, 25 May 2026 08:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.455158
- Title: TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation
- Title(参考訳): TapSampling:ロボットマニピュレーションのためのタスクプログレッシブ検証による推論時間サンプリング
- Authors: Sizhe Zhao, Shengping Zhang, Shuo Yang, Weiyu Zhao, Shuigen Wang, Xiangyang Ji,
- Abstract要約: 既存の具体的制御研究は、トレーニングデータとモデルサイズをスケールすることで、顕著なパフォーマンス向上を示す。
拡散や自己回帰モデルのような非決定論的生成モデルは、エンボディドコントロールの分野で広く採用されている。
推測時間サンプリングのためのプラグイン・アンド・プレイフレームワークである textbfTapSampling を提案する。
- 参考スコア(独自算出の注目度): 61.35569005726248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing embodied control research demonstrates remarkable performance improvements by scaling training data and model size. We instead explore inference-time strategy as an alternative axis. Non-deterministic generative models, such as diffusion and autoregressive models, have been widely adopted in the field of embodied control. However, the single-shot inference paradigm limits their performance. In this paper, we propose \textbf{TapSampling}, a plug-and-play framework for inference-time sampling. First, we introduce an Action-VAE that represents actions in a low-dimensional latent space by mapping policy-generated initial actions into a compressed posterior distribution, from which any number of latent samples can be drawn and decoded into candidate actions that approximate the true action distribution. Second, we formulate action verification as task-progress outcome prediction, using the intrinsic sequential structure of robotic datasets to train a semantically grounded verifier for interpretable action selection. Furthermore, TapSampling is a policy-agnostic framework. Extensive experiments in both simulated and real-world environments demonstrate that our method substantially improves multiple generalist policies without further policy finetuning. Code and models are available at the project page.
- Abstract(参考訳): 既存の具体的制御研究は、トレーニングデータとモデルサイズをスケールすることで、顕著なパフォーマンス向上を示す。
代わりに、代替軸として推論時戦略を探求する。
拡散や自己回帰モデルのような非決定論的生成モデルは、エンボディドコントロールの分野で広く採用されている。
しかし、シングルショット推論パラダイムはパフォーマンスを制限します。
本稿では,推論時間サンプリングのためのプラグイン・アンド・プレイフレームワークである \textbf{TapSampling} を提案する。
まず、ポリシー生成した初期動作を圧縮された後続分布にマッピングすることで、低次元の潜伏空間におけるアクションを表現するアクションVAEを導入し、そこから任意の数の潜伏サンプルを描画し、真の作用分布を近似する候補アクションにデコードする。
第2に,ロボットデータセットの本質的な逐次構造を用いて動作検証をタスクプログレッシブな結果予測として定式化し,動作選択のための意味的接地検証器を訓練する。
さらにTapSamplingはポリシーに依存しないフレームワークである。
シミュレーションと実世界の両環境における大規模な実験により,本手法はさらなる政策微調整を伴わずに,複数のジェネラリスト政策を大幅に改善することを示した。
コードとモデルはプロジェクトページで公開されている。
関連論文リスト
- Deterministic Mode Proposals: An Efficient Alternative to Generative Sampling for Ambiguous Segmentation [3.5493798890908113]
本稿では,1つのフォワードパスで提案マスクの固定サイズの集合を効率よく生成する決定論的フレームワークを提案する。
提案手法は,既存の生成モデルよりも高信頼度を達成しつつ,推論時間を著しく短縮する。
我々のモデルは結果の完全な分布を知らずにトレーニングでき、実際のデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2026-03-20T17:59:26Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Speculative Sampling for Parametric Temporal Point Processes [9.15731236208975]
時間点過程はイベントシーケンスの強力な生成モデルである。
それらは一般的に、前のイベントから次のイベントの分布を学ぶ自動回帰モデルを使って指定される。
本稿では、既存のTPPモデルから複数の将来の値の正確なサンプリングを可能にする、リジェクションサンプリングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-22T21:20:26Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - CCDP: Composition of Conditional Diffusion Policies with Guided Sampling [17.9632871021636]
本稿では,以前に失敗した動作を避けるため,サンプリング分布を改良する改良されたサンプリング戦略を提案する。
本手法は,探索行動の追加を必要とせずに,回復動作を推定できることを実証する。
提案手法では, サンプリングスペースを動的に調整し, 先行サンプルが不足した場合の効率を向上させる低レベルコントローラを提案する。
論文 参考訳(メタデータ) (2025-03-19T16:24:55Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - A Block Metropolis-Hastings Sampler for Controllable Energy-based Text
Generation [78.81021361497311]
我々は,大規模言語モデルの反復的プロンプトを通じて,各ステップにおけるシーケンス全体の書き直しを提案する新しいメトロポリス・ハスティングス(MH)サンプリング器を開発した。
対象分布からより効率的かつ正確なサンプリングが可能となり, (b) 事前に固定するのではなく, サンプリング手順により生成長を決定することが可能となった。
論文 参考訳(メタデータ) (2023-12-07T18:30:15Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。