Fugu-MT 論文翻訳(概要): From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

論文の概要: From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

arxiv url: http://arxiv.org/abs/2604.21391v1
Date: Thu, 23 Apr 2026 07:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.373189
Title: From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges
Title（参考訳）: 騒音からインテントへ:残留橋による生成型VLAポリシーの整理
Authors: Yiming Zhong, Yaoyu He, Zemin Yang, Pengfei Tian, Yifan Huang, Qingqiu Huang, Xinge Zhu, Yuexin Ma,
Abstract要約: ResVLAはパラダイムを"Refinement-from-Noise-Intent"に変えるアーキテクチャである残留拡散橋による局所力学の精製に焦点を当てている。これは現実世界のロボット実験で強いパフォーマンスを示す。
参考スコア（独自算出の注目度）: 39.128014667094014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bridging high-level semantic understanding with low-level physical control remains a persistent challenge in embodied intelligence, stemming from the fundamental spatiotemporal scale mismatch between cognition and action. Existing generative VLA policies typically adopt a "Generation-from-Noise" paradigm, which disregards this disparity, leading to representation inefficiency and weak condition alignment during optimization. In this work, we propose ResVLA, an architecture that shifts the paradigm to "Refinement-from-Intent." Recognizing that robotic motion naturally decomposes into global intent and local dynamics, ResVLA utilizes spectral analysis to decouple control into a deterministic low-frequency anchor and a stochastic high-frequency residual. By anchoring the generative process on the predicted intent, our model focuses strictly on refining local dynamics via a residual diffusion bridge. Extensive simulation experiments show that ResVLA achieves competitive performance, strong robustness to language and robot embodiment perturbations, and faster convergence than standard generative baselines. It also demonstrates strong performance in real-world robot experiments.
Abstract（参考訳）: 低レベルの物理的制御による高レベルのセマンティック理解を組み込むことは、認知と行動の基本的な時空間スケールのミスマッチに起因して、インテリジェンスを具現化する上で永続的な課題である。既存の生成型VLAポリシでは、この格差を無視した"Generation-from-Noise"パラダイムを採用しており、最適化時の表現効率の低下と条件調整の弱さにつながっている。本稿では,パラダイムを"Refinement-from-Intent"に変換するアーキテクチャであるResVLAを提案する。ロボットの動きが自然に大域的意図と局所力学に分解されることを認識し、ResVLAはスペクトル分析を用いて制御を決定論的低周波アンカーと確率的高周波残差に分離する。生成過程を予測された意図に固定することにより、残留拡散橋による局所力学の精細化に厳密に焦点をあてる。大規模なシミュレーション実験により、ResVLAは、競争性能、言語とロボットのエンボディメントの摂動に対する強靭性、および標準生成ベースラインよりも高速な収束を達成できることが示された。また、現実世界のロボット実験でも強い性能を示す。

関連論文リスト

Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models [28.981226513192535]
最近のVision-Language-Action(VLA)モデルでは、標準的なロボットベンチマークで顕著な成功率が報告されている。最近の証拠は、標準ベンチマークの成功と真の具体的推論の体系的な不一致を示唆している。本稿では,ロボットポリシーにおける真の身体的推論の診断ベンチマークであるBeTTERを紹介する。
論文参考訳（メタデータ） (2026-04-20T09:25:30Z)
STRONG-VLA: Decoupled Robustness Learning for Vision-Language-Action Models under Multimodal Perturbations [26.063335767640083]
本稿では、VLA(Vision-Language-Action)モデルのための切り離された微調整フレームワークSTRONG-VLAを提案する。ステージIでは、モデルは困難が増す多モーダル摂動のカリキュラムに晒される。ステージIIでは、モデルはクリーンなタスク分布と整合して、堅牢性を維持しながら実行の忠実さを回復します。 LIBEROベンチマークの実験では、STRONG-VLAは複数のVLAアーキテクチャにおけるタスク成功率を一貫して改善している。
論文参考訳（メタデータ） (2026-04-11T06:37:47Z)
Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。 GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。 LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文参考訳（メタデータ） (2026-02-22T15:39:34Z)
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-11T09:41:36Z)
FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。 FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。 FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-12-04T16:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。