論文の概要: Adaptor: Advancing Assistive Teleoperation with Few-Shot Learning and Cross-Operator Generalization
- arxiv url: http://arxiv.org/abs/2604.09462v1
- Date: Fri, 10 Apr 2026 16:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.958426
- Title: Adaptor: Advancing Assistive Teleoperation with Few-Shot Learning and Cross-Operator Generalization
- Title(参考訳): Adaptor:Few-Shot Learningとクロスオペレータ一般化による補助的遠隔操作の促進
- Authors: Yu Liu, Yihang Yin, Tianlv Huang, Fei Yan, Yuan Xu, Weinan Hong, Wei Han, Yue Cao, Xiangyu Chen, Zipei Fan, Xuan Song,
- Abstract要約: Adaptorは、堅牢なクロスオペレーターインテント認識のためのフレームワークである。
ドメインギャップを、前処理とポリシー学習という2つの段階にブリッジする。
最先端のパフォーマンスを実現し、成功率とベースラインよりも効率を向上します。
- 参考スコア(独自算出の注目度): 26.90003783245582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assistive teleoperation enhances efficiency via shared control, yet inter-operator variability, stemming from diverse habits and expertise, induces highly heterogeneous trajectory distributions that undermine intent recognition stability. We present Adaptor, a few-shot framework for robust cross-operator intent recognition. The Adaptor bridges the domain gap through two stages: (i) preprocessing, which models intent uncertainty by synthesizing trajectory perturbations via noise injection and performs geometry-aware keyframe extraction; and (ii) policy learning, which encodes the processed trajectories with an Intention Expert and fuses them with the pre-trained vision-language model context to condition an Action Expert for action generation. Experiments on real-world and simulated benchmarks demonstrate that Adaptor achieves state-of-the-art performance, improving success rates and efficiency over baselines. Moreover, the method exhibits low variance across operators with varying expertise, demonstrating robust cross-operator generalization.
- Abstract(参考訳): 補助的遠隔操作は、共有制御によって効率を高めるが、様々な習慣や専門知識から生じる操作間変動は、意図認識の安定性を損なう非常に異質な軌道分布を誘導する。
アダプタ(Adaptor)は,高機能なクロスオペレーティブなインテント認識のための,数ショットのフレームワークである。
Adaptorはドメインギャップを2段階にブリッジする。
一 ノイズ注入による軌道摂動を合成して不確実性をモデル化し、幾何学的キーフレーム抽出を行う前処理
(ii)政策学習は、処理された軌跡を意図的専門家に符号化し、事前学習された視覚言語モデルコンテキストと融合してアクション生成のためのアクションエキスパートを条件付ける。
実世界のベンチマークとシミュレーションベンチマークの実験は、Adaptorが最先端のパフォーマンスを達成し、ベースラインよりも成功率と効率を向上させることを示した。
さらに, 様々な専門知識を持つ演算子間の分散が低く, 頑健な演算子間一般化を実証する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。