Fugu-MT 論文翻訳(概要): Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations

論文の概要: Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations

arxiv url: http://arxiv.org/abs/2512.08548v1
Date: Tue, 09 Dec 2025 12:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-10 22:28:07.958484
Title: Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations
Title（参考訳）: 言語に基づく行動表現によるロボット制御におけるブリッジスケールの相違
Authors: Yuchi Zhang, Churui Sun, Shiqi Liang, Diyuan Liu, Chao Ji, Wei-Nan Zhang, Ting Liu,
Abstract要約: 本稿では,効果的な事前学習のための行動正規化のための意味的基礎言語表現を提案する。提案手法は,ロボット操作作業における一般化と伝達性を大幅に向上することを示す。
参考スコア（独自算出の注目度）: 20.612898908232907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent end-to-end robotic manipulation research increasingly adopts architectures inspired by large language models to enable robust manipulation. However, a critical challenge arises from severe distribution shifts between robotic action data, primarily due to substantial numerical variations in action commands across diverse robotic platforms and tasks, hindering the effective transfer of pretrained knowledge. To address this limitation, we propose a semantically grounded linguistic representation to normalize actions for efficient pretraining. Unlike conventional discretized action representations that are sensitive to numerical scales, the motion representation specifically disregards numeric scale effects, emphasizing directionality instead. This abstraction mitigates distribution shifts, yielding a more generalizable pretraining representation. Moreover, using the motion representation narrows the feature distance between action tokens and standard vocabulary tokens, mitigating modality gaps. Multi-task experiments on two benchmarks demonstrate that the proposed method significantly improves generalization performance and transferability in robotic manipulation tasks.
Abstract（参考訳）: 最近のエンドツーエンドのロボット操作研究は、ロバストな操作を可能にするために、大きな言語モデルにインスパイアされたアーキテクチャを採用する傾向にある。しかし、ロボットの行動データ間での重大な分散シフトは、主に多様なロボットプラットフォームやタスクにわたるアクションコマンドの相当な数値的な変化によるものであり、事前訓練された知識の効果的な伝達を妨げる。この制限に対処するために、効率的な事前学習のためのアクションを正規化するための意味論的基盤を持つ言語表現を提案する。数値スケールに敏感な従来の離散化アクション表現とは異なり、運動表現は数値スケール効果を特に無視し、代わりに方向性を強調する。この抽象化は分布シフトを緩和し、より一般化可能な事前学習表現をもたらす。さらに、動作表現を用いることで、アクショントークンと標準語彙トークンとの間の特徴距離を狭め、モダリティギャップを緩和する。 2つのベンチマークによるマルチタスク実験により,ロボット操作作業における一般化性能と伝達性を大幅に向上することを示した。

関連論文リスト

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文参考訳（メタデータ） (2025-10-06T17:37:24Z)
FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文参考訳（メタデータ） (2025-09-29T03:30:40Z)
ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文参考訳（メタデータ） (2025-09-25T07:29:07Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation [23.805401747928745]
本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
論文参考訳（メタデータ） (2024-11-21T02:46:04Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。 RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-11T16:28:25Z)
Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文参考訳（メタデータ） (2021-02-03T15:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。