論文の概要: Evaluating Factor-Wise Auxiliary Dynamics Supervision for Latent Structure and Robustness in Simulated Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2603.21268v1
- Date: Sun, 22 Mar 2026 14:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.316743
- Title: Evaluating Factor-Wise Auxiliary Dynamics Supervision for Latent Structure and Robustness in Simulated Humanoid Locomotion
- Title(参考訳): シミュレーション型ヒューマノイドロコモーションにおける潜在構造とロバスト性に対する因子量補助動力学シミュレーションの評価
- Authors: Chayanin Chamachot,
- Abstract要約: DynaMITEは、因子単位の補助損失によって訓練された24d遅延剤を備えたトランスフォーマーエンコーダである。
監督された潜伏剤は、分解性または機能的に分離可能な因子構造を示す証拠を示さない。
移動実践者にとって:補助力学の監督は解釈可能な推定器を作らない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We evaluate whether factor-wise auxiliary dynamics supervision produces useful latent structure or improved robustness in simulated humanoid locomotion. DynaMITE -- a transformer encoder with a factored 24-d latent trained by per-factor auxiliary losses during proximal policy optimization (PPO) -- is compared against Long Short-Term Memory (LSTM), plain Transformer, and Multilayer Perceptron (MLP) baselines on a Unitree G1 humanoid across four Isaac Lab tasks. The supervised latent shows no evidence of decodable or functionally separable factor structure: probe R^2 ~ 0 for all five dynamics factors, clamping any subspace changes reward by < 0.05, and standard disentanglement metrics (MIG, DCI, SAP) are near zero. An unsupervised LSTM hidden state achieves higher probe R^2 (up to 0.10). A 2x2 factorial ablation (n = 10 seeds) isolates the contributions of the tanh bottleneck and auxiliary losses: the auxiliary losses show no measurable effect on either in-distribution (ID) reward (+0.03, p = 0.732) or severe out-of-distribution (OOD) reward (+0.03, p = 0.669), while the bottleneck shows a small, consistent advantage in both regimes (ID: +0.16, p = 0.207; OOD: +0.10, p = 0.208). The bottleneck advantage persists under severe combined perturbation but does not amplify, indicating a training-time representation benefit rather than a robustness mechanism. LSTM achieves the best nominal reward on all four tasks (p < 0.03); DynaMITE degrades less under combined-shift stress (2.3% vs. 16.7%), but this difference is attributable to the bottleneck compression, not the auxiliary supervision. For locomotion practitioners: auxiliary dynamics supervision does not produce an interpretable estimator and does not measurably improve reward or robustness beyond what the bottleneck alone provides; recurrent baselines remain the stronger choice for nominal performance.
- Abstract(参考訳): シミュレーションしたヒューマノイドロコモーションにおいて,因子的に補助的な動的指導が有用な潜伏構造を作り出すか,あるいはロバスト性を向上させるかを評価する。
DynaMITE – 近似ポリシー最適化(PPO)中に、要素毎の補助的損失によってトレーニングされた24-dの因子を持つトランスフォーマーエンコーダで、Long Short-Term Memory(LSTM)、プレーントランスフォーマー、Multilayer Perceptron(MLP)のベースラインをIsaac Labの4つのタスクで比較する。
すべての5つの動的因子に対してプローブ R^2 ~ 0 であり、任意の部分空間変化を 0.05 にクランプし、標準非絡合測度 (MIG, DCI, SAP) は 0 に近い。
無監督LSTM隠れ状態は、より高いプローブR^2(最大0.10)を達成する。
2x2因子のアブレーション(n = 10種)は、タンハボトルネックと補助的損失の寄与を分離する: 補助的損失は、in-distribution (ID) reward (+0.03, p = 0.732) または severe out-of-distribution (OOD) reward (+0.03, p = 0.669) のいずれかに測定可能な効果を示さないが、ボトルネックは両体制 (ID: +0.16, p = 0.207; OOD: +0.10, p = 0.208) において小さな一貫した優位性を示す。
ボトルネックのアドバンテージは、重度の複合摂動の下で持続するが、増幅せず、堅牢性メカニズムよりもトレーニング時間表現の利点を示している。
LSTMは4つのタスクで最高の名目報酬(p < 0.03)を達成し、DynaMITEは複合的なシフトストレス(2.3%対16.7%)で低下するが、この差は補助的な監督ではなくボトルネック圧縮に起因している。
移動実践者にとって: 補助力学の監督は解釈可能な推定器を作らず、ボトルネックのみが提供するもの以上の報酬や堅牢性を計測的に改善しない。
関連論文リスト
- Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates [10.39662017167378]
不確かさの定量化(UQ)は、計算的に効率的かつ空間的に忠実でなければならない。
本稿では,現代のNOに共通するモジュラー・アナロジーを利用した構造対応UQスキームを提案する。
挑戦的なPDEベンチマークの実験では、提案された構造認識設計により、より信頼性の高いカバレッジ、よりタイトなバンド、残留不確実性アライメントの改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T10:17:24Z) - MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Zero-Shot Detection of Elastic Transient Morphology Across Physical Systems [0.0]
干渉ひずみの過渡度から学習した表現は、未知のセンサのモルフォロジーに敏感な演算子として機能することを示す。
非ガウス楽器のグリッチを専門に訓練したニューラルエンコーダを用いて、圧延要素の軸受に対して厳密なゼロショット異常解析を行う。
論文 参考訳(メタデータ) (2026-01-16T16:35:07Z) - SCI: An Equilibrium for Signal Intelligence [0.0]
本稿では,解釈可能性の制御状態としてモデル化する制御理論フレームワークであるSCIを提案する。
SCIは解釈誤差DeltaSPを定式化し、[0,1]のSP(t)を目標に向かってアクティブに駆動する。
論文 参考訳(メタデータ) (2025-11-15T14:48:17Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation [68.55191764622525]
拡散モデル(DPM)は、視覚合成において顕著な性能を示すが、サンプリング中に複数の評価を必要とするため、計算コストが高い。
最近の予測器合成・拡散サンプリング装置は,要求される評価回数を大幅に削減したが,本質的には誤調整の問題に悩まされている。
我々はDC-CPRrと呼ばれる新しい高速DPMサンプリング装置を導入する。
論文 参考訳(メタデータ) (2024-09-05T17:59:46Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。