Fugu-MT 論文翻訳(概要): FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens

論文の概要: FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens

arxiv url: http://arxiv.org/abs/2506.01583v1
Date: Mon, 02 Jun 2025 12:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.371027
Title: FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens
Title（参考訳）: FreqPolicy: 継続的トークンによる周波数自己回帰型ビズモータポリシ
Authors: Yiming Zhong, Yumeng Liu, Chuyang Xiao, Zemin Yang, Youzhuo Wang, Yufei Zhu, Ye Shi, Yujing Sun, Xinge Zhu, Yuexin Ma,
Abstract要約: 本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。我々の手法は、精度と効率の両方で既存の手法より優れている。
参考スコア（独自算出の注目度）: 20.715024408481973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning effective visuomotor policies for robotic manipulation is challenging, as it requires generating precise actions while maintaining computational efficiency. Existing methods remain unsatisfactory due to inherent limitations in the essential action representation and the basic network architectures. We observe that representing actions in the frequency domain captures the structured nature of motion more effectively: low-frequency components reflect global movement patterns, while high-frequency components encode fine local details. Additionally, robotic manipulation tasks of varying complexity demand different levels of modeling precision across these frequency bands. Motivated by this, we propose a novel paradigm for visuomotor policy learning that progressively models hierarchical frequency components. To further enhance precision, we introduce continuous latent representations that maintain smoothness and continuity in the action space. Extensive experiments across diverse 2D and 3D robotic manipulation benchmarks demonstrate that our approach outperforms existing methods in both accuracy and efficiency, showcasing the potential of a frequency-domain autoregressive framework with continuous tokens for generalized robotic manipulation.
Abstract（参考訳）: ロボット操作のための効果的なビズモータポリシーの学習は、計算効率を維持しながら正確な行動を生成する必要があるため、難しい。既存の手法は、本質的なアクション表現と基本的なネットワークアーキテクチャに固有の制限があるため、満足できないままである。低周波成分はグローバルな動きパターンを反映し、高周波成分は微細な局所的詳細を符号化する。さらに、様々な複雑さのロボット操作タスクは、これらの周波数帯域にわたって異なるレベルのモデリング精度を要求する。そこで本研究では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。多様な2Dおよび3Dロボット操作ベンチマークによる大規模な実験により、我々のアプローチは精度と効率の両方で既存の手法よりも優れており、一般化されたロボット操作のための連続トークンを用いた周波数領域自己回帰フレームワークの可能性を示している。

関連論文リスト

FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文参考訳（メタデータ） (2025-09-29T03:30:40Z)
ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文参考訳（メタデータ） (2025-09-25T07:29:07Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow [93.00917887667234]
本稿では,アクション推定のための新しいロボット操作フレームワークであるActionSinkを紹介する。その名前が示すように、ActionSinkは、アクションフローと呼ばれるビデオからのアクション起因の光学フローとして、ロボットのアクションを再構成する。我々のフレームワークは,LIBEROベンチマークのSOTAよりも7.9%向上し,長軸視覚課題LIBERO-Longの精度は8%近く向上した。
論文参考訳（メタデータ） (2025-08-05T08:46:17Z)
Learning to Move in Rhythm: Task-Conditioned Motion Policies with Orbital Stability Guarantees [45.137864140049814]
我々は,学習した微分型エンコーダと超臨界ホップ分岐を結合したフレームワークであるOrbitally Stable Motion Primitives (OSMPs)を紹介する。提案手法は,多種多様なロボットプラットフォームにまたがる広範囲なシミュレーションと実世界の実験によって検証される。
論文参考訳（メタデータ） (2025-07-12T17:10:03Z)
ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model [52.02220087880269]
本稿では,階層的世界モデルを用いてマルチタスクシーンのダイナミックスを消化することにより,双方向操作を改善するManiGaussianフレームワークの拡張を提案する。提案手法は,シミュレーションタスク10件で20.2%,実世界の課題9件で平均60%の成功率で,最先端のバイマニュアル操作技術よりも優れていた。
論文参考訳（メタデータ） (2025-06-24T17:59:06Z)
FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency [34.81668269819768]
本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。 FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
論文参考訳（メタデータ） (2025-06-10T14:12:53Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
マスク付きモデリングと拡散過程を組み合わせて動きを生成する,ロバストな動き生成フレームワークMoMADiffを提案する。我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文参考訳（メタデータ） (2025-05-16T09:06:15Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
CAIMAN: Causal Action Influence Detection for Sample-efficient Loco-manipulation [17.94272840532448]
我々は,ロボットが環境内の他のエンティティを制御できるようにする強化学習フレームワークであるCAIMANを提案する。シミュレーションにおけるCAIMANの優れたサンプル効率と多様なシナリオへの適応性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-02T16:16:53Z)
Free-T2M: Robust Text-to-Motion Generation for Humanoid Robots via Frequency-Domain [17.042533970366105]
本稿では周波数領域の観点からT2M問題を再構成する。本稿では、段階固有の周波数領域の整合性を考慮したフレームワークであるFluquency enhanced text-to-motion(Free-T2M)を紹介する。大規模な実験により,本手法は動作品質と意味的正しさを劇的に向上させることが示された。
論文参考訳（メタデータ） (2025-01-30T09:45:23Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本稿では,ロボット操作支援のためのフレームワークを提案する。第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
Next Steps: Learning a Disentangled Gait Representation for Versatile Quadruped Locomotion [69.87112582900363]
現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変更することはできない。本研究では、特定の歩行を構成する重要な姿勢位相を捉える潜在空間を学習することにより、この制限に対処する。本研究では, 歩幅, 歩幅, 立位など, 歩行パラメータに直接対応した駆動信号マップの具体的特性を示す。
論文参考訳（メタデータ） (2021-12-09T10:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。