論文の概要: Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.01766v1
- Date: Mon, 02 Mar 2026 11:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.824908
- Title: Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models
- Title(参考訳): ニューラル・インシシシト・アクション・フィールド:ビジョン・ランゲージ・アクション・モデルのための離散的視点から連続関数へ
- Authors: Haoyun Liu, Jianzhuang Zhao, Xinyuan Chang, Tianle Shi, Chuanzhang Meng, Jiayuan Tan, Feng Xiong, Tong Lin, Dongjie Huo, Mu Xu, SongLin Dong, Zhiheng Ma, Yihong Gong, Sheng Zhong,
- Abstract要約: 本稿では,行動予測を離散的な視点から連続的な行動関数の回帰へ変換するパラダイムシフトを提案する。
提案手法は, CALVIN および LIBERO ベンチマークにおいて, 種々のバックボーンにまたがって, 最新の結果が得られる。
- 参考スコア(独自算出の注目度): 35.98187913967879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of Vision-Language-Action (VLA) models, the prevailing paradigm of predicting discrete waypoints remains fundamentally misaligned with the intrinsic continuity of physical motion. This discretization imposes rigid sampling rates, lacks high-order differentiability, and introduces quantization artifacts that hinder precise, compliant interaction. We propose Neural Implicit Action Fields (NIAF), a paradigm shift that reformulates action prediction from discrete waypoints to continuous action function regression. By utilizing an MLLM as a hierarchical spectral modulator over a learnable motion prior, NIAF synthesizes infinite-resolution trajectories as continuous-time manifolds. This formulation enables analytical differentiability, allowing for explicit supervision of velocity, acceleration, and jerk to ensure mathematical consistency and physical plausibility. Our approach achieves state-of-the-art results on CALVIN and LIBERO benchmarks across diverse backbones. Furthermore, real-world experiments demonstrate that NIAF enables stable impedance control, bridging the gap between high-level semantic understanding and low-level dynamic execution.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルが急速に進歩したにもかかわらず、離散的なウェイポイントを予測するための一般的なパラダイムは、物理運動の本質的な連続性と根本的に相容れないままである。
この離散化は厳密なサンプリングレートを課し、高次微分可能性に欠け、正確なコンプライアンスを阻害する量子化アーティファクトを導入する。
本稿では,行動予測を離散的な視点から連続的な行動関数の回帰へ変換するパラダイムシフトであるニューラルインプリシト・アクション・フィールド(NIAF)を提案する。
学習可能な動きに対してMLLMを階層的なスペクトル変調器として利用することにより、NIAFは無限分解能軌道を連続時間多様体として合成する。
この定式化は解析的微分可能性を可能にし、速度、加速度、ジャークの明確な監督を可能にし、数学的整合性と物理的妥当性を保証する。
提案手法は, CALVIN および LIBERO ベンチマークにおいて, 種々のバックボーンにまたがって, 最新の結果が得られる。
さらに、実世界の実験では、NIAFが安定したインピーダンス制御を可能にし、ハイレベルなセマンティック理解と低レベルな動的実行のギャップを埋めることを示した。
関連論文リスト
- OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation [60.48914865049489]
MotionCFGは、ターゲットコンセプトとノイズブレーブの概念を対比することにより、モーションダイナミクスを強化するフレームワークである。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な否定的なガイダンスを促進する。
MotionCFGは、最先端のT2Vフレームワーク間のモーションダイナミクスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-14T18:39:37Z) - KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization [8.04458701181863]
KnowDiffuserは知識誘導型モーションプランニングフレームワークである。
言語モデルの意味的理解と拡散モデルの生成力を統合する。
これは、オープンループとクローズループの両方の評価において、既存のプランナーを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-11T05:45:29Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。
FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。
本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - Efficient Text-driven Motion Generation via Latent Consistency Training [21.348658259929053]
非線形逆拡散軌道を解くための動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
論文 参考訳(メタデータ) (2024-05-05T02:11:57Z) - Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。