論文の概要: Understanding Multimodal Failure in Action-Chunking Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2605.22493v1
- Date: Thu, 21 May 2026 13:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.282205
- Title: Understanding Multimodal Failure in Action-Chunking Behavioral Cloning
- Title(参考訳): アクション・チャンキング行動クローンにおけるマルチモーダル障害の理解
- Authors: Lorenzo Mazza, Massimiliano Datres, Ariel Rodriguez, Sebastian Bodenstedt, Gitta Kutyniok, Stefanie Speidel,
- Abstract要約: 異なるマルチモーダルパラメータ化は異なる方法で失敗することを示す。
潜時変更可能なポリシでは、後続のプライアライゼーションによって、デプロイメント時間のサンプリングがより信頼性が向上する。
アクション空間生成ポリシーでは、マルチモーダリティはベース・ツー・アクション輸送の滑らかさによって制約される。
- 参考スコア(独自算出の注目度): 15.076534262991537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral cloning becomes difficult when the same observation admits several valid actions. We study this problem for action-chunking policies and show that different multimodal parameterizations fail in different ways. For latent-variable policies, posterior-prior regularization makes deployment-time sampling more reliable, but excessive regularization removes the action-conditioned information needed to distinguish demonstrated modes. Reducing this regularization can preserve mode information, but then success depends on whether the prior covers the relevant latent regions. For action-space generative policies, multimodality is constrained by the smoothness of the base-to-action transport: a map with small Lipschitz constant cannot assign substantial probability to many well-separated modes. Covering many modes therefore requires either sharp transitions in base space or off-support bridge regions in action space. Experiments on synthetic multimodal tasks and robotic simulation benchmarks support these mechanisms.
- Abstract(参考訳): 同じ観察がいくつかの有効な行動を認めると、行動的クローニングは困難になる。
本稿では,アクションチャンキングポリシーの問題点を考察し,異なるマルチモーダルパラメータ化が異なる方法で失敗することを示す。
潜時変更可能なポリシでは、後続のプライアライゼーションにより、デプロイメント時間サンプリングがより信頼性が高くなるが、過剰な正規化は、デモモードの識別に必要なアクション条件情報を取り除く。
この正規化を減らすことは、モード情報を保存できるが、成功は、前者が関連する潜伏領域をカバーするかどうかに依存する。
作用空間生成ポリシーでは、多様性は基底-作用輸送の滑らかさによって制約される:小さなリプシッツ定数を持つ写像は、多くのよく分離されたモードにかなりの確率を割り当てることができない。
したがって、多くのモードをカバーするには、ベース空間の急激な遷移またはアクション空間のオフサポートブリッジ領域が必要になる。
合成マルチモーダルタスクとロボットシミュレーションベンチマークの実験は、これらのメカニズムをサポートしている。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Categorical Policies: Multimodal Policy Learning and Exploration in Continuous Control [1.7495213911983414]
中間カテゴリー分布を持つマルチモーダルな動作モードをモデル化するためにカテゴリーポリシーを導入する。
動作モードを選択するために潜在カテゴリー分布を利用することで、本手法はサンプリングトリックを通して完全に微分可能でありながら、マルチモーダル性を自然に表現する。
その結果, カテゴリー分布は, 連続制御における構造的探索と多モーダルな行動表現の強力なツールとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-08-19T15:18:01Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance [0.0]
この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。