論文の概要: Reference-Augmented Learning for Precise Tracking Policy of Tendon-Driven Continuum Robots
- arxiv url: http://arxiv.org/abs/2604.25698v1
- Date: Tue, 28 Apr 2026 14:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.902099
- Title: Reference-Augmented Learning for Precise Tracking Policy of Tendon-Driven Continuum Robots
- Title(参考訳): 腱駆動型連続ロボットの高精度追従のための参照強化学習
- Authors: Ziqing Zou, Ke Qiu, Haojian Lu, Rong Xiong, Yue Wang,
- Abstract要約: テンドン駆動連続ロボット(TDCR)は、非常に非線形で経路依存的なダイナミクスのため、大きな制御課題を生んでいる。
本稿では,TDCRの高精度6-DOF追跡制御のための参照拡張オフライン学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.61537407291779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tendon-Driven Continuum Robots (TDCRs) pose significant control challenges due to their highly nonlinear, path-dependent dynamics and non-Markovian characteristics. Traditional Jacobian-based controllers often struggle with hysteresis-induced oscillations, while conventional learning-based approaches suffer from poor generalization to out-of-distribution trajectories. This paper proposes a reference-augmented offline learning framework for precise 6-DOF tracking control of TDCRs. By leveraging a differentiable RNN-based dynamics surrogate as a gradient bridge, we optimize a control policy through an augmented reference distribution. This multi-scale augmentation scheme incorporates stochastic bias, harmonic perturbations, and random walks, forcing the policy to internalize diverse tracking error recovery mechanisms without additional hardware interaction. Experimental results on a three-section TDCR platform demonstrate that the proposed policy achieves a 50.9\% reduction in average position error compared to non-augmented baselines and significantly outperforms Jacobian-based methods in both precision and stability across various speeds.
- Abstract(参考訳): テンドン駆動型連続ロボット(TDCR)は, 非線形, 経路依存のダイナミクスと非マルコフ特性により, 制御上の課題を生じさせる。
伝統的なジャコビアン系コントローラはヒステリシスによる発振に苦しむことが多いが、従来の学習系アプローチは一般化の貧弱さからアウト・オブ・ディストリビューション・トラジェクトリーに苦しむ。
本稿では,TDCRの高精度6-DOF追跡制御のための参照拡張オフライン学習フレームワークを提案する。
微分可能なRNNベースのダイナミクスを勾配ブリッジとして活用することにより、拡張参照分布による制御ポリシーを最適化する。
このマルチスケール拡張方式は、確率バイアス、高調波摂動、ランダムウォークを取り入れ、追加のハードウェアインタラクションを伴わずに様々なトラッキングエラー回復機構を内部化する方針を強制する。
3節のTDCRプラットフォームによる実験結果から,提案手法は改良されていないベースラインに比べて平均位置誤差を50.95%低減し,ジャコビアン法と安定性の両面で有意な性能を示した。
関連論文リスト
- Learning-Based Dynamics Modeling and Robust Control for Tendon-Driven Continuum Robots [23.655392951446995]
テンドン駆動型ロボット連続体(TDCR)は複雑な非線形性のため、モデリングと制御に重大な課題をもたらす。
本稿では,高忠実度ダイナミクスモデリングと頑健なニューラルコントロールを統合した微分可能な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T14:20:44Z) - Robust Adversarial Policy Optimization Under Dynamics Uncertainty [8.729531978655737]
強化学習(RL)ポリシーは、トレーニングとは異なるダイナミクスの下で失敗することが多い。
本稿では、ロバスト性-性能トレードオフを直接露呈する二重定式化を提案する。
結果として得られるフレームワークである、堅牢な逆ポリシー最適化(RAPO)は、ロバストなRLベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-13T04:23:54Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Optimizing Multi-Modal Trackers via Sensitivity-aware Regularized Tuning [112.12667472919723]
本稿では,RGBデータに対する事前学習モデルを効果的に適用することにより,マルチモーダルトラッカーの最適化に挑戦する。
既存の微調整パラダイムは過度な自由と過剰な制限の間に振動し、最適の可塑性-安定性のトレードオフをもたらす。
そこで本研究では,本質的なパラメータ感を取り入れて学習プロセスを微妙に洗練する,感性に配慮した規則化チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-24T18:42:47Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - CaRT: Certified Safety and Robust Tracking in Learning-based Motion
Planning for Multi-Agent Systems [7.77024796789203]
CaRTは、学習ベースのモーションプランニングポリシーの安全性と堅牢性を保証するために、新しい階層的な分散アーキテクチャである。
定性障害や有界障害があっても,CaRTは軌道追跡誤差の安全性と指数関数性を保証する。
本稿では, 非線形動作計画と制御問題のいくつかの例において, CaRTの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-13T21:51:29Z) - Interpretable Stochastic Model Predictive Control using Distributional
Reinforced Estimation for Quadrotor Tracking Systems [0.8411385346896411]
本研究では,動的・複雑環境下での自律的四角形ナビゲーションのためのトラジェクトリトラッカーを提案する。
提案フレームワークは,未知の空力効果に対する分散強化学習推定器をモデル予測制御器に統合する。
我々は,未知かつ多様な空気力を用いて,累積追従誤差を少なくとも66%改善するシステムを実証した。
論文 参考訳(メタデータ) (2022-05-14T23:27:38Z) - Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation [5.147919654191323]
本稿では,制約指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。
提案するフレームワークは、平面四重項の例で検証される。
論文 参考訳(メタデータ) (2021-12-15T15:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。