論文の概要: Neuro-Inspired Inverse Learning for Planning and Control
- arxiv url: http://arxiv.org/abs/2605.24152v2
- Date: Tue, 26 May 2026 06:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.992161
- Title: Neuro-Inspired Inverse Learning for Planning and Control
- Title(参考訳): 計画と制御のためのニューロインスパイアされた逆学習
- Authors: Maryna Kapitonova, Tonio Ball,
- Abstract要約: 本稿では,脳神経に触発された計画と制御のための枠組みを提案する。
我々は,哺乳動物の脳における高速かつ高効率な目標指向行動を可能にする3つの原理に基づいて構築する。
私たちのフレームワークは、Inverse Learningを通じてトレーニングされたエンドツーエンドの学習コンポーネントを使用します。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a neuro-inspired framework for embodied planning and control. Building on three principles that enable fast and highly effective goal-directed behavior in the mammalian brain - paired forward/inverse internal models, open-loop multi-step motor commands, and sequential, hierarchical organization of action - our Inverter framework uses learned components, trained end-to-end through Inverse Learning (IL) and supplemented where natural by analytic or algorithmic modules; we formalize IL and delineate it from supervised, reinforcement, and imitation learning. IL bridges Reinforcement Learning (RL)-style amortization, which runs in a single forward pass but emits only one action at a time, and Optimal Control (OC)-style sequence planning over whole trajectories, but with iterative test-time computation. Single Inverters or hierarchical n=2 Inverter stacks match or improve on offline-RL and diffusion-planner baselines on all 3 maze2d and 6 antmaze D4RL variants by an average of +24.2% (range -1.9% to +78.2%), at one-to-two orders of magnitude less inference compute time. Distinctively, optimizing through the Forward Model (FoM) over the entire T-step action sequence - rather than per step - lets Inverters produce smooth, goal-coherent, trajectory-wide structure and reach control policies closer to the analytic optimum than the policy underlying the training data itself. We also identify a failure mode of IL: FoM hacking under narrow training-data coverage, which we mitigate by using random training data with broader coverage. As an application example, a Pulse Inverter synthesizes arbitrary single-qubit quantum gates with fidelity matching the standard iterative numerical baseline (GRAPE), at more than 1000x lower per-gate compute time. In summary, we conclude that IL enables a versatile class of world-interfaces, especially for latency- and resource-critical embodied AI.
- Abstract(参考訳): 本稿では,脳神経に触発された計画と制御のための枠組みを提案する。
我々のInverterフレームワークは、学習したコンポーネントを使用し、Inverse Learning (IL)を通して訓練されたエンドツーエンドを使用し、分析的またはアルゴリズム的モジュールによって自然に補足される。
ILは強化学習(Reinforcement Learning、RL)スタイルのアモーティゼーションを1つのフォワードパスで実行し、一度に1つのアクションだけを出力し、最適制御(OC)スタイルのシーケンスプランニングは全軌道上で行うが、反復的なテスト時間計算で行う。
単一インバータまたは階層的なn=2インバータスタックは、オフラインRLと拡散プランナーのベースラインを3つのmaze2dと6つのantmaze D4RLで平均+24.2%(範囲は-1.9%から+78.2%)で一致させるか改善する。
本質的には、ステップ毎にではなく、Tステップのアクションシーケンス全体に対してフォワードモデル(FoM)を最適化することで、インバータはスムーズでゴールコヒーレントで軌道全体の構造を生成し、トレーニングデータ自体の基盤となるポリシーよりも分析最適に近いコントロールポリシーに到達することができる。
狭いトレーニングデータカバレッジ下でのFoMハッキングは、より広範なカバレッジを持つランダムなトレーニングデータを使用することで軽減します。
応用例として、Pulse Inverterは、標準反復数値ベースライン(GRAPE)と一致する忠実度を持つ任意の単一量子ビット量子ゲートを、ゲート当たり1000倍以上の低い時間で合成する。
まとめると、ILは、特にレイテンシとリソースクリティカルな具体的AIにおいて、多種多様な世界インターフェースを実現することができると結論付けている。
関連論文リスト
- Intelligent Optimal Control of Rydberg Gates with Incremental-Update Deep Reinforcement Learning [10.771205594997445]
本稿では,高速かつ高忠実なRydberg制御NOTゲートを実現するためのDRLベースのフレームワークについて述べる。
段階的に更新された学習ポリシーを導入することで、制御環境の探索を効果的に調整する。
提案プロトコルは, 従来手法を著しく上回り, 耐故障しきい値を超え, 0.9991 のピーク平均忠実度を実現している。
論文 参考訳(メタデータ) (2026-05-06T08:15:59Z) - Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - Transformer-based Scalable Beamforming Optimization via Deep Residual Learning [12.79709425087431]
大規模MU-MISOチャネルにおけるダウンリンクビームフォーミングのための教師なしディープラーニングフレームワーク。
モデルはオフラインでトレーニングされ、動的通信環境における軽量フィードフォワード計算によるリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2025-10-15T01:43:51Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。
MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:29:19Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Applications of Deep Learning to the Design of Enhanced Wireless
Communication Systems [0.0]
ディープラーニング(DL)ベースのシステムは、抽出可能なモデルが存在しないような、ますます複雑なタスクを処理できる。
この論文は、物理層におけるDLの潜在能力を解き放つための様々なアプローチを比較することを目的としている。
論文 参考訳(メタデータ) (2022-05-02T21:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。