論文の概要: The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space
- arxiv url: http://arxiv.org/abs/2606.01847v1
- Date: Mon, 01 Jun 2026 07:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.588557
- Title: The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space
- Title(参考訳): タンジェントスペースでのスコアマッチングによる視覚言語行動ポリシーにおけるユークリッドの誤り訂正
- Authors: Bing-Cheng Chuang, I-Hsuan Chu, Bor-Jiun Lin, YuanFu Yang, Min Sun, Chun-Yi Lee,
- Abstract要約: 本報告では,SE(3)を内在的に運用する拡散フレームワークを提案する。
本手法は,左不変SDEを用いてノイズを注入し,空間接点のスコアを予測し,指数写像を用いてサンプルを抽出する。
CALVIN ABC$rightarrow$Dでは、平均タスク長が$3.27$から$3.51$+7.3%$に改善されている。
- 参考スコア(独自算出の注目度): 19.950575615573978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Vision-Language-Action policies achieve remarkable success in robotic manipulation, yet commit a fundamental geometric error we term the $\textbf{Euclidean Fallacy}$: representing SE(3) poses as flat $\mathbb{R}^{12}$ vectors. This approximation induces (1) manifold drift violating SO(3) constraints, (2) broken equivariance under coordinate transformations, and (3) non-geodesic trajectories with excessive kinematic cost. We introduce $\textbf{Lie Diffuser Actor (LDA)}$, a diffusion framework operating intrinsically on SE(3). Our method injects noise through left-invariant SDEs, predicts scores in the tangent space, and retracts samples via the exponential map. This formulation eliminates manifold drift by construction while guaranteeing coordinate-frame equivariance and geodesic optimality. On CALVIN ABC$\rightarrow$D, LDA improves average task length from $3.27$ to $3.51$ ($+7.3\%$). We further validate our method on real robot and the results show that our methodology outperforms the baseline on majority tasks.
- Abstract(参考訳): 拡散に基づくビジョン・ランゲージ・アクション(Vision-Language-Action)ポリシーはロボット操作において顕著な成功を収めるが、基本的な幾何学的誤差を$\textbf{Euclidean Fallacy}$:present SE(3) poses as flat $\mathbb{R}^{12}$ vectors(英語版)と呼ぶ。
この近似は、(1) 多様体のドリフトがSO(3) の制約に反し、(2) 座標変換の下での破れた等式、(3) 運動コストの過大な非測地軌道を誘導する。
本稿では,SE(3)上で本質的に動作する拡散フレームワークである$\textbf{Lie Diffuser Actor (LDA)}$を紹介する。
本手法は,左不変SDEを用いてノイズを注入し,タンジェント空間のスコアを予測し,指数写像を用いてサンプルを抽出する。
この定式化は、座標フレームの等式と測地的最適性を確保しながら、構成による多様体のドリフトを除去する。
CALVIN ABC$\rightarrow$Dでは、平均タスク長が$3.27$から$3.51$$+7.3\%$に改善されている。
さらに本手法を実ロボットで検証し,本手法が多数タスクのベースラインよりも優れていることを示す。
関連論文リスト
- Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models [6.2676602262188625]
VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。
GST-VLAを2つのコントリビューションで紹介する。
第一に、ガウス空間Tokenizer (GST) は凍った深度と凍ったセマンティックパッチの特徴を3Dプリミティブに変換する。
第二に、DA-CoT推論は4つの構造化された中間空間的思考を監督する。
論文 参考訳(メタデータ) (2026-03-10T01:39:38Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Entangled Mean Estimation in High-Dimensions [36.97113089188035]
信号のサブセットモデルにおける高次元エンタングルド平均推定の課題について検討する。
最適誤差(polylogarithmic factor)は$f(alpha,N) + sqrtD/(alpha N)$であり、$f(alpha,N)$は1次元問題の誤差であり、第二項は準ガウス誤差率である。
論文 参考訳(メタデータ) (2025-01-09T18:31:35Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Equivalence Between SE(3) Equivariant Networks via Steerable Kernels and
Group Convolution [90.67482899242093]
近年, 入力の回転と変換において等価な3次元データに対して, ニューラルネットワークを設計するための幅広い手法が提案されている。
両手法とその等価性を詳細に解析し,その2つの構成をマルチビュー畳み込みネットワークに関連付ける。
また、同値原理から新しいTFN非線形性を導出し、実用的なベンチマークデータセット上でテストする。
論文 参考訳(メタデータ) (2022-11-29T03:42:11Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。