論文の概要: Dynamics-Aligned Shared Hypernetworks for Zero-Shot Actuator Inversion
- arxiv url: http://arxiv.org/abs/2602.06550v1
- Date: Fri, 06 Feb 2026 09:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.332904
- Title: Dynamics-Aligned Shared Hypernetworks for Zero-Shot Actuator Inversion
- Title(参考訳): ゼロショットアクチュエータインバージョンのためのダイナミックアライメント共有ハイパーネット
- Authors: Jan Benad, Pradeep Kr. Banerjee, Frank Röder, Nihat Ay, Martin V. Butz, Manfred Eppe,
- Abstract要約: DMA*-SHは,動的予測のみによってトレーニングされた単一ハイパーネットワークのフレームワークであり,適応重みの小さなセットを生成する。
この共有変調は、入力/出力正規化とランダム入力マスキングの安定化コンテキスト推論とが一致する誘導バイアスをアクチュエータインバージョンに付与する。
Actuator Inversion Benchmark (AIB) は、不連続なコンテキスト-動的相互作用を分離するための環境スイートである。
- 参考スコア(独自算出の注目度): 3.335249027791264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot generalization in contextual reinforcement learning remains a core challenge, particularly when the context is latent and must be inferred from data. A canonical failure mode is actuator inversion, where identical actions produce opposite physical effects under a latent binary context. We propose DMA*-SH, a framework where a single hypernetwork, trained solely via dynamics prediction, generates a small set of adapter weights shared across the dynamics model, policy, and action-value function. This shared modulation imparts an inductive bias matched to actuator inversion, while input/output normalization and random input masking stabilize context inference, promoting directionally concentrated representations. We provide theoretical support via an expressivity separation result for hypernetwork modulation, and a variance decomposition with policy-gradient variance bounds that formalize how within-mode compression improves learning under actuator inversion. For evaluation, we introduce the Actuator Inversion Benchmark (AIB), a suite of environments designed to isolate discontinuous context-to-dynamics interactions. On AIB's held-out actuator-inversion tasks, DMA*-SH achieves zero-shot generalization, outperforming domain randomization by 111.8% and surpassing a standard context-aware baseline by 16.1%.
- Abstract(参考訳): 文脈強化学習におけるゼロショットの一般化は、特に文脈が遅れてデータから推測されなければならない場合において、依然として中心的な課題である。
標準故障モードはアクチュエータ・インバージョンであり、同じ動作が潜在バイナリコンテキスト下で反対の物理的効果を生み出す。
本稿では,DMA*-SHを提案する。DMA*-SHは,ダイナミックスモデル,ポリシ,アクション値関数間で共有されるアダプタ重みの小さなセットを生成する。
この共有変調は、入力/出力正規化とランダムな入力マスクによるコンテキスト推論を安定化させ、方向集中表現を促進するとともに、アクチュエータの反転と一致する誘導バイアスを与える。
我々は,ハイパーネットワーク変調のための表現性分離結果による理論的支援と,アクチュエータ・インバージョンにおける内部モード圧縮による学習改善の形式化を図ったポリシ・グラディエントな分散境界による分散分解を提供する。
Actuator Inversion Benchmark (AIB) は、不連続なコンテキスト-動的相互作用を分離するための環境スイートである。
AIBのホールドアウトアクチュエータ・インバージョンタスクでは、DMA*-SHはゼロショットの一般化を実現し、ドメインランダム化を111.8%上回り、標準のコンテキスト認識ベースラインを16.1%上回る。
関連論文リスト
- Joint Embedding Variational Bayes [0.08594140167290097]
変分ジョイント・エンベディング(VJE)は、関節埋め込みと変分推論を合成するフレームワークである。
VJEは、再構成のない非競合的な環境で確率的表現の自己教師付き学習を可能にする。
論文 参考訳(メタデータ) (2026-02-05T13:18:53Z) - UniRoute: Unified Routing Mixture-of-Experts for Modality-Adaptive Remote Sensing Change Detection [6.323154336421137]
UniRouteは、モダリティ適応学習のための統一されたフレームワークである。
グローバルな意味的文脈から局所空間の詳細を遠ざけるための適応受容場ルーティングMOEモジュールを提案する。
また,データスカースな異種環境下での統一学習を安定化する一貫性を考慮した自己蒸留手法を提案する。
論文 参考訳(メタデータ) (2026-01-21T09:21:25Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - A Unified Approach for Learning the Dynamics of Power System Generators and Inverter-based Resources [12.723995633698514]
再生可能エネルギーの統合と電気化のためのインバータベースの資源(IBR)は、電力系統の動的解析に大きく挑戦する。
同期ジェネレータ(SG)とIRBの両方を考慮するため、この研究は個々の動的コンポーネントのモデルを学ぶためのアプローチを示す。
論文 参考訳(メタデータ) (2024-09-22T14:07:10Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。