論文の概要: Temporal Attention for Adaptive Control of Euler-Lagrange Systems with Unobservable Memory
- arxiv url: http://arxiv.org/abs/2605.06877v1
- Date: Thu, 07 May 2026 19:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.57695
- Title: Temporal Attention for Adaptive Control of Euler-Lagrange Systems with Unobservable Memory
- Title(参考訳): 観測不能メモリを持つオイラーラグランジュ系の適応制御のための時間的注意
- Authors: Giansalvo Cirrincione, Adriano Fagiolini,
- Abstract要約: 本稿では,自己注意ブロックによって演算トルク制御器の利得が生成されるメタ制御アーキテクチャを提案する。
注意頭数は、記憶状態勾配の代理解析によりポリシートレーニングの前に選択される。
この手法は非線形摩擦と可変ペイロードを持つ2-DOFマニピュレータで試験される。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive control of Euler-Lagrange systems is challenging when friction is governed by a finite-horizon internal state that is not directly observable from joint measurements. In this setting, the measured closed-loop state is no longer Markovian, and standard certainty-equivalence adaptive laws may lose their convergence guarantees. The paper proposes a meta-control architecture in which the gains of a computed-torque controller are generated by a self-attention block processing a short window of recent motion history. The number of attention heads is selected before policy training through a surrogate analysis of the autocovariance of the memory-state gradient along the temporal window. This surrogate is based on a temporal adaptation of an incremental rank-tracking framework previously developed by the authors. The selected head count is then fixed and used as an architectural hyperparameter in a reinforcement-learning stage, where the policy is trained under a shielded admissibility constraint. The approach is tested on a 2-DOF manipulator with nonlinear friction and variable payload. In the short and matched memory regimes, the single-layer attention-only meta-controller outperforms a deeper Transformer baseline, with tracking-error reductions of 12 and 19 percentage points, respectively. The reported effect sizes are large, with d approximately -1.1 and -2.1, and Mann-Whitney p < 0.05 in both cases. In the long memory regime, however, the advantage disappears. Four out of ten training runs show either divergence or payload-invariant policy collapse, revealing a weakness in the static Phase-1 head-count prescription. This motivates moving rank-tracking inside the reinforcement-learning loop, allowing attention heads to be pruned or grown at runtime instead of fixed before training.
- Abstract(参考訳): ユーラー・ラグランジュ系の適応制御は、摩擦が関節測定から直接観測できない有限水平内部状態によって支配されるときに困難である。
この設定では、測定された閉ループ状態はもはやマルコフ的ではなく、標準確実同値適応法則は収束保証を失う可能性がある。
本稿では,近年の動作履歴のショートウィンドウを処理した自己アテンションブロックにより,演算トルク制御器のゲインを生成するメタ制御アーキテクチャを提案する。
テンポラリウィンドウに沿ったメモリ状態勾配の自己共分散の代理解析により、ポリシートレーニングの前に注目ヘッド数を選択する。
このサロゲートは、以前に著者によって開発された漸進的なランク追跡フレームワークの時間的適応に基づいている。
次に、選択されたヘッドカウントを固定し、強化学習段階におけるアーキテクチャハイパーパラメータとして使用し、保護された許容制約の下でポリシーを訓練する。
この手法は非線形摩擦と可変ペイロードを持つ2-DOFマニピュレータで試験される。
短いメモリと一致したメモリでは、単層アテンションのみのメタコントローラは、それぞれ12ポイントと19ポイントのトラッキングエラーを減少させ、より深いトランスフォーマーベースラインを上回っている。
報告された効果の大きさは、d は -1.1 と -2.1 であり、Mann-Whitney p < 0.05 である。
しかし、長期記憶体制では、利点は消える。
10のトレーニングのうち4つは、ばらつきまたはペイロード不変のポリシー崩壊を示し、静的フェーズ1のヘッドカウント処方薬の弱点を明らかにしている。
これにより、強化学習ループ内でのランクトラッキングの移動が動機となり、トレーニング前に固定されるのではなく、アテンションヘッドを刈り取ったり、実行時に成長させたりすることができる。
関連論文リスト
- Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances [8.618483849755604]
オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
論文 参考訳(メタデータ) (2026-03-27T17:08:40Z) - IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring [9.250460219785188]
IGU-LoRAは、階層内統合勾配(IG)の感度を計算し、それらをランク割り当てのための階層レベルスコアに集約する適応ランクLoRAである。
IGU-LoRAは、一致したパラメータ予算でPEFTベースラインを一貫して上回り、下流の精度とロバスト性を改善している。
論文 参考訳(メタデータ) (2026-03-14T06:45:54Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression [53.48692193399171]
Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。
テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-11-26T03:26:37Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - MAESTROCUT: Dynamic, Noise-Adaptive, and Secure Quantum Circuit Cutting on Near-Term Hardware [0.0]
MaestroCutは、分散プロキシをリアルタイムで追跡し、精度が低下した時に再カットをトリガーし、トポロジ対応のプリエントを使用してショットをルーティングする。
Tier-1シミュレーションは、一貫した分散収縮と、一様および比例基底線に対する平均二乗誤差の低減を示す。
リアルなキューとノイズによるTier-2エミュレーションは、ストレスシナリオ下で安定したレイテンシターゲット、高い信頼性、1%のソフトウェアオーバーヘッドを示す。
論文 参考訳(メタデータ) (2025-08-31T12:01:16Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - On optimization of coherent and incoherent controls for two-level
quantum systems [77.34726150561087]
本稿では、閉かつオープンな2レベル量子系の制御問題について考察する。
閉系の力学は、コヒーレント制御を持つシュリンガー方程式によって支配される。
開系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
論文 参考訳(メタデータ) (2022-05-05T09:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。