論文の概要: CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics
- arxiv url: http://arxiv.org/abs/2603.29409v1
- Date: Tue, 31 Mar 2026 08:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.343988
- Title: CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics
- Title(参考訳): CLaD: クロスモーダルラテントダイナミクスによる接地予測による計画
- Authors: Andrew Jeong, Jaemin Kim, Sebin Lee, Sung-Eui Yoon,
- Abstract要約: CLaDは,行動下での受容的状態と意味的状態の共進化をモデル化するフレームワークである。
CLaDは、EMAターゲットエンコーダと補助的な再構成損失による自己監督目標により、接地された潜伏監視を予測する。
LIBERO-LONGベンチマークでは、CLaDは94.7%の成功率を達成した。
- 参考スコア(独自算出の注目度): 25.518388341069492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robotic manipulation involves kinematic and semantic transitions that are inherently coupled via underlying actions. However, existing approaches plan within either semantic or latent space without explicitly aligning these cross-modal transitions. To address this, we propose CLaD, a framework that models how proprioceptive and semantic states jointly evolve under actions through asymmetric cross-attention that allows kinematic transitions to query semantic ones. CLaD predicts grounded latent foresights via self-supervised objectives with EMA target encoders and auxiliary reconstruction losses, preventing representation collapse while anchoring predictions to observable states. Predicted foresights are modulated with observations to condition a diffusion policy for action generation. On LIBERO-LONG benchmark, CLaD achieves 94.7\% success rate, competitive with large VLAs with significantly fewer parameters.
- Abstract(参考訳): ロボット操作は、根底的な作用によって本質的に結合される運動的および意味的な遷移を含む。
しかし、既存のアプローチは、これらのクロスモーダル遷移を明示的に整列することなく、意味空間または潜在空間内で計画する。
そこで本研究では,非対称なクロスアテンションを介し,韻律的状態と意味的状態の協調的な進化をモデル化するフレームワークであるCLaDを提案する。
CLaDは、EMAターゲットエンコーダによる自己監督目標と補助的な再構成損失により、接地された潜伏監視を予測し、観測可能な状態に予測を固定しながら、表現の崩壊を防ぐ。
予測された見通しは、行動生成のための拡散ポリシーを条件に観測によって変調される。
LIBERO-LONGベンチマークでは、CLaDは94.7%の成功率に達し、パラメータが大幅に少ない大きなVLAと競合する。
関連論文リスト
- FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。
SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。
オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文 参考訳(メタデータ) (2026-02-02T03:10:41Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Intention-Aware Diffusion Model for Pedestrian Trajectory Prediction [15.151965172049271]
本稿では,短期と長期の両方の動作意図を組み込んだ拡散型歩行者軌道予測フレームワークを提案する。
提案するフレームワークはETH, UCY, SDDのベンチマークで評価され, 最先端手法に対する競合性を実証した。
論文 参考訳(メタデータ) (2025-08-10T02:36:33Z) - Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM [16.532357621144342]
本稿では、選択状態空間モデル(SSM)に基づく新しい効率的な軌道予測フレームワークであるTrajectory Mambaを紹介する。
注意機構の変更による予測精度の潜在的な低減に対処するため,共同ポリリン符号化戦略を提案する。
本モデルでは,Argoverse 1 と Argoverse 2 の両方のデータセットにおける推定速度とパラメータ効率の両面から,最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-13T21:31:12Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Learning Semantic Latent Directions for Accurate and Controllable Human Motion Prediction [25.965711897002016]
この課題に対する解決策として,SLD(Semantic Latent Directions)を導入する。
SLDは潜在空間を制約し、意味のある動作意味学を学ぶ。
現実主義と多様性のバランスを保ちながら動きを正確に予測する上で,本手法の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T08:31:59Z) - DESTINE: Dynamic Goal Queries with Temporal Transductive Alignment for
Trajectory Prediction [8.25651323214656]
時間的変換型alIgNmEnt(DESTINE)法を用いた動的ゴールquErieSを提案する。
提案手法は,各種メトリクスの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-11T12:41:32Z) - Motion-Scenario Decoupling for Rat-Aware Video Position Prediction:
Strategy and Benchmark [49.58762201363483]
本研究では,個人や環境の影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。
本稿では,シナリオ指向とモーション指向を効果的に分離するDual-stream Motion-Scenario Decouplingフレームワークを提案する。
難易度が異なるタスクに対して,提案したtextitDMSD フレームワークの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-17T14:14:31Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。