論文の概要: Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
- arxiv url: http://arxiv.org/abs/2605.27919v1
- Date: Wed, 27 May 2026 03:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.729696
- Title: Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
- Title(参考訳): サブ周波数マニフォールドトラバーサルによる周波数誘導動作拡散
- Authors: Junlin Wang,
- Abstract要約: 自然の人間の実演を直接模倣する訓練方針は、必然的にモデルが最適以下の行動を継承する原因となる。
本稿では、暗黙的なスペクトル操作とスムーズな動作生成を可能にする新しい周波数ベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.382362279444032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/
- Abstract(参考訳): 行動クローニングによるビジュモータポリシーの学習は、典型的には、人間の操作者が収集した専門家のデモンストレーションを模倣する。
しかし、自然の人間の演示は本質的に間欠的なジャーク、一時停止、アクションジッターのような高周波ノイズを含む。
これらの生の軌道を直接模倣する訓練方針は、必然的にモデルがこれらの準最適行動を継承する原因となる。
この病理学は拡散に基づく政策において特に顕著であり、反復的認知ステップは、意味のある微細な詳細を犠牲にして、必然的に高周波アーティファクトを増幅することができる。
これらの制約に対処するために、暗黙的なスペクトル操作とスムーズなアクション生成を可能にする新しい周波数ベースのアルゴリズムを提案する。
周波数誘導演算子 (FGO) は, スペクトル帯域が拡大する中間部分周波数多様体を通して, ノイズを段階的に駆動することで, 拡散警察の生成過程を制御している。
5つのベンチマークから15のロボット操作タスクを検証したFGOは、タスクの実行を成功させるために必要な詳細を保存しながら、動作のスムーズさと時間的一貫性を向上させる上で、優れたパフォーマンスを実現している。
プロジェクトウェブサイト: https://henrywjl.github.io/ frequency-guidance-operator/
関連論文リスト
- Action-to-Action Flow Matching [25.301629044539325]
拡散に基づく政策は、最近、条件付き認知過程として行動予測を定式化することで、ロボット工学において顕著な成功を収めた。
本稿では,A2A(Action-to-Action Flow Match)を提案する。
A2Aは単一の推論ステップ(0.56msレイテンシ)で高品質なアクション生成を可能にし、視覚摂動に優れた堅牢性を示し、目に見えない構成に一般化する。
論文 参考訳(メタデータ) (2026-02-07T02:39:49Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [47.735852718586216]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation [0.0]
連続自己回帰モデルは、推論中のエラーの蓄積により、拡張シーケンスよりも生成品質が低下する可能性がある。
本稿では,学習中に入力埋め込みにランダムノイズを注入することにより,この問題に対処する新しい手法を提案する。
この研究は、純粋に自己回帰的な環境で連続的な埋め込みを生成する方法を舗装し、リアルタイムおよびインタラクティブな生成アプリケーションに新たな可能性を開く。
論文 参考訳(メタデータ) (2024-11-27T15:38:20Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - RhythmFormer: Extracting Patterned rPPG Signals based on Periodic Sparse Attention [18.412642801957197]
RRhythmは、生理学的ビデオに基づいて生理的信号を検出する非接触法である。
本稿では,周期性によって誘発される時間的注意間隔に基づく周期的注意機構を提案する。
これは、データ内およびデータ間評価の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-20T07:56:02Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。