論文の概要: EBGAN-MDN: An Energy-Based Adversarial Framework for Multi-Modal Behavior Cloning
- arxiv url: http://arxiv.org/abs/2510.07562v1
- Date: Wed, 08 Oct 2025 21:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.742278
- Title: EBGAN-MDN: An Energy-Based Adversarial Framework for Multi-Modal Behavior Cloning
- Title(参考訳): EBGAN-MDN:マルチモーダル・ビヘイビア・クローンのためのエネルギーベース・アドバイザ・フレームワーク
- Authors: Yixiao Li, Julia Barth, Thomas Kiefer, Ahmad Fraij,
- Abstract要約: 本研究では,エネルギーベースモデル,混合密度ネットワーク(MDN),敵対的トレーニングを統合したEBGAN-MDNを提案する。
合成およびロボットベンチマークの実験は優れた性能を示し、EBGAN-MDNをマルチモーダル学習タスクの効率的かつ効率的なソリューションとして確立した。
- 参考スコア(独自算出の注目度): 5.108430708574452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal behavior cloning faces significant challenges due to mode averaging and mode collapse, where traditional models fail to capture diverse input-output mappings. This problem is critical in applications like robotics, where modeling multiple valid actions ensures both performance and safety. We propose EBGAN-MDN, a framework that integrates energy-based models, Mixture Density Networks (MDNs), and adversarial training. By leveraging a modified InfoNCE loss and an energy-enforced MDN loss, EBGAN-MDN effectively addresses these challenges. Experiments on synthetic and robotic benchmarks demonstrate superior performance, establishing EBGAN-MDN as a effective and efficient solution for multi-modal learning tasks.
- Abstract(参考訳): マルチモーダル・ビヘイビア・クローンは、モード平均化とモード崩壊による重要な課題に直面している。
ロボット工学のようなアプリケーションでは、複数の有効なアクションをモデリングすることで、パフォーマンスと安全性の両方が保証される。
本研究では,エネルギーベースモデル,混合密度ネットワーク(MDN),敵対的トレーニングを統合したEBGAN-MDNを提案する。
改良されたInfoNCE損失とエネルギー強化MDN損失を活用することで、EBGAN-MDNはこれらの課題に効果的に対処する。
合成およびロボットベンチマークの実験は優れた性能を示し、EBGAN-MDNをマルチモーダル学習タスクの効率的かつ効率的なソリューションとして確立した。
関連論文リスト
- DualNILM: Energy Injection Identification Enabled Disaggregation with Deep Multi-Task Learning [19.749237860326883]
本稿では,アプライアンス状態認識と入射エネルギー識別の2つのタスクを対象とした深層マルチタスク学習フレームワークであるDualNILMを提案する。
我々の研究は、再生可能エネルギーの浸透を伴う現代のエネルギーシステムにおいて、この枠組みの強固なエネルギー分散の可能性を強調している。
論文 参考訳(メタデータ) (2025-08-20T10:35:38Z) - Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models [57.45019514036948]
MRMP拡散(MRMP Diffusion, SMD)は, 制約付き最適化を拡散サンプリングプロセスに統合し, 衝突のない, キネマティックに実現可能な軌道を生成する新しい手法である。
本稿では, ロボット密度, 障害物の複雑度, 動作制約の異なるシナリオ間の軌道計画アルゴリズムを評価するための総合的MRMPベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:51:28Z) - Online Physics-Informed Dynamic Mode Decomposition: Theory and Applications [3.31440855661969]
動的モード分解(DMD)は、複雑な力学系を解析・モデル化する能力により、研究の注目を集めている。
提案するオンライン物理インフォームドDMD(OPIDMD)は,新しいDMDの凸最適化フレームワークへの適応である。
論文 参考訳(メタデータ) (2024-12-04T12:57:35Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Context-aware Multi-Model Object Detection for Diversely Heterogeneous
Compute Systems [0.32634122554914]
ディープニューラルネットワーク(DNN)を用いた物体検出への1サイズ全アプローチは、計算資源の非効率な利用につながる。
本稿では,動的に変化する文脈情報や計算制約に応じて,様々なDNNベースのODモデルから連続的に選択するShiftを提案する。
提案手法は、最先端のGPUベースの単一モデルODアプローチと比較して、エネルギー使用率7.5倍、レイテンシ2.8倍の改善をもたらす。
論文 参考訳(メタデータ) (2024-02-12T05:38:11Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。