論文の概要: NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models
- arxiv url: http://arxiv.org/abs/2605.07794v1
- Date: Fri, 08 May 2026 14:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.115345
- Title: NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models
- Title(参考訳): ノイズゲイト:世界行動モデルにおける情報ゲーティングとしての潜時時間スケジュール学習
- Authors: Wen Huang, Haoran Sun, Yongjian Guo, Yunxuan Ma, Haoran Li, Jing Long, Zhouying Mo, Zhong Guan, Yucheng Guo, Shuai Di, Junwu Xiong,
- Abstract要約: World Action Models (WAM) は、ロボットアクション生成と将来の観測モデリングを結びつけるポリシーである。
NoiseGateは軽量なゲーティングポリシーネットワークで、遅延時間当たりのインクリメントをデノイング中に出力する。
NoiseGateは多様なRoboTwinランダムシーン操作タスクに対して一貫したゲインを提供する。
- 参考スコア(独自算出の注目度): 19.272356473995245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World Action Models (WAMs) are an emerging family of policies that tie robot action generation to future-observation modeling. In this work, we focus on the joint video--action modeling paradigm, where actions and imagined future observations are co-generated along a shared denoising or flow trajectory, so that perception, prediction, and control are coupled within one generative process. Existing WAMs typically realize this paradigm with a Mixture-of-Transformers (MoT), where video and action tokens interact through shared self-attention. This architecture can in principle assign a separate timestep $t_f$ to each predicted latent frame, yet current systems collapse this degree of freedom onto a single shared scalar $t$. Under the noise-as-masking view of Diffusion Forcing, this shared schedule imposes the unjustified prior that every predicted latent is equally reliable for action generation. We instead view the per-latent schedule as a \emph{learnable information-gating policy}: by changing a latent frame's noise level, the policy modulates the reliability of its Key/Value contribution to the action tokens. We propose \textbf{NoiseGate}, which combines independent per-latent timestep sampling during backbone training, a lightweight Gating Policy Network that emits per-latent time increments during denoising, and task-reward optimization that trains the schedule policy without hand-crafted shape priors. Built on a joint video--action MoT backbone, NoiseGate delivers consistent gains on diverse RoboTwin random-scene manipulation tasks.
- Abstract(参考訳): World Action Models(WAM)は、ロボットアクション生成と将来の観測モデリングを結びつける新しいポリシーのファミリーである。
本研究では,協調的な映像行動モデリングのパラダイムに着目し,行動と将来の観測が共有された認知・流れの軌跡に沿って共同生成され,知覚・予測・制御が1つの生成過程内で結合される。
既存のWAMはMixture-of-Transformers (MoT)でこのパラダイムを実現するのが一般的である。
このアーキテクチャは原則として、予測された遅延フレームごとに別の時間ステップ$t_f$を割り当てるが、現在のシステムは、この自由度を単一の共有スカラー$t$に分解する。
拡散強制のノイズ・アズ・マスキング・ビューの下で、この共有スケジュールは、予測された全ての潜伏者が同様にアクション生成に信頼できるという不当な事前を課す。
遅延フレームのノイズレベルを変更することで、アクショントークンに対するキー/バリューのコントリビューションの信頼性を調節する。
本稿では,バックボーントレーニング中に個別のラテン系時間ステップサンプリングを組み込んだ‘textbf{NoiseGate’と,デノナイジング時にラテン系時間インクリメントを出力する軽量ゲーティングポリシーネットワークと,手作りの形状の前処理なしでスケジュールポリシーをトレーニングするタスク・リワード最適化を提案する。
ジョイントビデオアクションのMoTバックボーン上に構築されたNossGateは,さまざまなRoboTwinランダムシーン操作タスクに対して,一貫したゲインを提供する。
関連論文リスト
- VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models [46.94937828558026]
政策最適化により映像アクションモデルにおける視覚力学を直接改善する後学習フレームワークであるVAMPOを提案する。
私たちのキーとなるアイデアは、シーケンシャルな決定プロセスとしてマルチステップの認知を定式化し、専門家の視覚力学上で定義された認知の報酬を最適化することです。
多様なシミュレートされた実世界の操作タスクにまたがって、VAMPOはタスク関連視覚力学を改善し、より下流でのアクション生成とより強力な一般化をもたらす。
論文 参考訳(メタデータ) (2026-03-19T18:04:03Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - Sequence Diffusion Model for Temporal Link Prediction in Continuous-Time Dynamic Graph [5.83093727437226]
既存の時間グラフニューラルネットワークは、主に歴史的相互作用の学習表現に焦点を当てている。
本稿では,動的グラフ学習を生成的認知と統合する,新しいシーケンスレベルの拡散フレームワークを提案する。
我々は,時間的リンク予測タスクにおいて,このフレームワークが常に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-01-30T18:02:12Z) - Temporal Graph Pattern Machine [17.352525018007473]
時間的グラフパターンマシン(TGPM)は、時間的に偏ったランダムウォークによって合成された相互作用パッチとして、各相互作用を概念化する。
TGPMは、トランスダクティブリンク予測とインダクティブリンク予測の両方において、常に最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-01-30T01:46:13Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos [32.71627274876863]
本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。
これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。
本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-07-04T08:54:59Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。