論文の概要: Exploring multimodal implicit behavior learning for vehicle navigation in simulated cities
- arxiv url: http://arxiv.org/abs/2509.15400v1
- Date: Thu, 18 Sep 2025 20:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.891474
- Title: Exploring multimodal implicit behavior learning for vehicle navigation in simulated cities
- Title(参考訳): シミュレーション都市における車両ナビゲーションのためのマルチモーダル暗黙的行動学習の探索
- Authors: Eric Aislan Antonelo, Gustavo Claudio Karl Couto, Christian Möller,
- Abstract要約: Inlicit Behavioral Cloning (IBC) with Energy-Based Models (EBMs) to capture multimodality。
本稿では,データ拡張型IBC(DA-IBC)を提案する。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard Behavior Cloning (BC) fails to learn multimodal driving decisions, where multiple valid actions exist for the same scenario. We explore Implicit Behavioral Cloning (IBC) with Energy-Based Models (EBMs) to better capture this multimodality. We propose Data-Augmented IBC (DA-IBC), which improves learning by perturbing expert actions to form the counterexamples of IBC training and using better initialization for derivative-free inference. Experiments in the CARLA simulator with Bird's-Eye View inputs demonstrate that DA-IBC outperforms standard IBC in urban driving tasks designed to evaluate multimodal behavior learning in a test environment. The learned energy landscapes are able to represent multimodal action distributions, which BC fails to achieve.
- Abstract(参考訳): BC(Standard Behavior Cloning)は、同じシナリオに対して複数の有効なアクションが存在するマルチモーダル駆動決定を学習できない。
エネルギーベースモデル(EBM)を用いたIBC(Implicit Behavioral Cloning)を探索し、このマルチモーダルをよりよく捉える。
本稿では,データ拡張IBC(Data-Augmented IBC,DA-IBC)を提案する。
Bird's-Eye View入力を用いたCARLAシミュレータの実験では、DA-IBCはテスト環境でのマルチモーダル行動学習を評価するために設計された都市運転タスクにおいて、標準IBCよりも優れていた。
学習されたエネルギーの風景は、BCが達成できなかったマルチモーダルな行動分布を表現できる。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human
Supervisors [20.182639914630514]
Implicit Interactive Fleet Learning (IIFL) は、Implicit Behavior Cloning (IBC) に基づく、インタラクティブな模倣学習のためのアルゴリズムである。
IIFLはシミュレーション実験で2.8倍の成功率、人間の努力で4.5倍のリターンを達成する。
論文 参考訳(メタデータ) (2023-06-27T06:02:44Z) - Diffusion Model-Augmented Behavioral Cloning [4.363232795241617]
本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローン(DBC)は,専門家の行動のモデル化に訓練された拡散モデルを用いて,BC損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習する。
論文 参考訳(メタデータ) (2023-02-26T15:40:09Z) - Energy-Based Contrastive Learning of Visual Representations [54.06799491319278]
コントラスト学習とエネルギーベースモデル(EBM)を組み合わせたエネルギーベースコントラスト学習(EBCLR)を提案する。
EBCLRは254対の負対(バッチサイズ128)と30対の負対(バッチサイズ16)でほぼ同じ性能を達成し、少数の負対に対してEBCLRの堅牢性を示す。
論文 参考訳(メタデータ) (2022-02-10T09:46:10Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。