論文の概要: Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
- arxiv url: http://arxiv.org/abs/2512.08548v1
- Date: Tue, 09 Dec 2025 12:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.958484
- Title: Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
- Title(参考訳): 言語に基づく行動表現によるロボット制御におけるブリッジスケールの相違
- Authors: Yuchi Zhang, Churui Sun, Shiqi Liang, Diyuan Liu, Chao Ji, Wei-Nan Zhang, Ting Liu,
- Abstract要約: 本稿では,効果的な事前学習のための行動正規化のための意味的基礎言語表現を提案する。
提案手法は,ロボット操作作業における一般化と伝達性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 20.612898908232907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent end-to-end robotic manipulation research increasingly adopts architectures inspired by large language models to enable robust manipulation. However, a critical challenge arises from severe distribution shifts between robotic action data, primarily due to substantial numerical variations in action commands across diverse robotic platforms and tasks, hindering the effective transfer of pretrained knowledge. To address this limitation, we propose a semantically grounded linguistic representation to normalize actions for efficient pretraining. Unlike conventional discretized action representations that are sensitive to numerical scales, the motion representation specifically disregards numeric scale effects, emphasizing directionality instead. This abstraction mitigates distribution shifts, yielding a more generalizable pretraining representation. Moreover, using the motion representation narrows the feature distance between action tokens and standard vocabulary tokens, mitigating modality gaps. Multi-task experiments on two benchmarks demonstrate that the proposed method significantly improves generalization performance and transferability in robotic manipulation tasks.
- Abstract(参考訳): 最近のエンドツーエンドのロボット操作研究は、ロバストな操作を可能にするために、大きな言語モデルにインスパイアされたアーキテクチャを採用する傾向にある。
しかし、ロボットの行動データ間での重大な分散シフトは、主に多様なロボットプラットフォームやタスクにわたるアクションコマンドの相当な数値的な変化によるものであり、事前訓練された知識の効果的な伝達を妨げる。
この制限に対処するために、効率的な事前学習のためのアクションを正規化するための意味論的基盤を持つ言語表現を提案する。
数値スケールに敏感な従来の離散化アクション表現とは異なり、運動表現は数値スケール効果を特に無視し、代わりに方向性を強調する。
この抽象化は分布シフトを緩和し、より一般化可能な事前学習表現をもたらす。
さらに、動作表現を用いることで、アクショントークンと標準語彙トークンとの間の特徴距離を狭め、モダリティギャップを緩和する。
2つのベンチマークによるマルチタスク実験により,ロボット操作作業における一般化性能と伝達性を大幅に向上することを示した。
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation [23.805401747928745]
本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。
本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。
敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
論文 参考訳(メタデータ) (2024-11-21T02:46:04Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。