論文の概要: D-Optimality-Guided Reinforcement Learning for Efficient Open-Loop Calibration of a 3-DOF Ankle Rehabilitation Robot
- arxiv url: http://arxiv.org/abs/2601.15707v1
- Date: Thu, 22 Jan 2026 07:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.902262
- Title: D-Optimality-Guided Reinforcement Learning for Efficient Open-Loop Calibration of a 3-DOF Ankle Rehabilitation Robot
- Title(参考訳): D-Optimality-Guided Reinforcement Learning for Effient Open-Loop Calibration of a 3-DOF Ankle Rehabilitation Robot
- Authors: Qifan Hu, Branko Celler, Weidong Mu, Steven W. Su,
- Abstract要約: 本稿では,自己設計した3自由度3自由度足首リハビリテーションロボットの2段階キャリブレーションフレームワークを提案する。
Kronecker-product-based open-loop calibration法を開発し、入力出力アライメントを線形パラメータ同定問題にキャストする。
近似ポリシー最適化(PPO)エージェントは、50の候補セットから4つの情報的姿勢を選択するようシミュレーションで訓練される。
- 参考スコア(独自算出の注目度): 0.7839709681312917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate alignment of multi-degree-of-freedom rehabilitation robots is essential for safe and effective patient training. This paper proposes a two-stage calibration framework for a self-designed three-degree-of-freedom (3-DOF) ankle rehabilitation robot. First, a Kronecker-product-based open-loop calibration method is developed to cast the input-output alignment into a linear parameter identification problem, which in turn defines the associated experimental design objective through the resulting information matrix. Building on this formulation, calibration posture selection is posed as a combinatorial design-of-experiments problem guided by a D-optimality criterion, i.e., selecting a small subset of postures that maximises the determinant of the information matrix. To enable practical selection under constraints, a Proximal Policy Optimization (PPO) agent is trained in simulation to choose 4 informative postures from a candidate set of 50. Across simulation and real-robot evaluations, the learned policy consistently yields substantially more informative posture combinations than random selection: the mean determinant of the information matrix achieved by PPO is reported to be more than two orders of magnitude higher with reduced variance. In addition, real-world results indicate that a parameter vector identified from only four D-optimality-guided postures provides stronger cross-episode prediction consistency than estimates obtained from a larger but unstructured set of 50 postures. The proposed framework therefore improves calibration efficiency while maintaining robust parameter estimation, offering practical guidance for high-precision alignment of multi-DOF rehabilitation robots.
- Abstract(参考訳): 多自由度リハビリテーションロボットの正確なアライメントは、安全かつ効果的な患者訓練に不可欠である。
本稿では,自己設計した3自由度3自由度足首リハビリテーションロボットの2段階キャリブレーションフレームワークを提案する。
まず、Kronecker-product-based open-loop calibration法を開発し、入力出力アライメントを線形パラメータ識別問題にキャストし、結果の情報行列によって関連する設計目標を定義する。
この定式化に基づいて、キャリブレーション姿勢選択は、D-最適基準によって導かれる組合せ設計-実験問題として、情報行列の行列式を最大化する少数の姿勢を選択する。
制約下での実用的な選択を可能にするため、PPOエージェントをシミュレーションで訓練し、50の候補集合から4つの情報的姿勢を選択する。
PPOが達成した情報行列の平均行列式は、ばらつきを減らして2桁以上も高くなると報告されている。
さらに, 4つのD-最適誘導姿勢から特定されるパラメータベクトルは, 50個の姿勢の大きいが非構造的集合から得られた推定値よりも, 相互位相予測の一貫性が強いことを示す。
提案手法は,頑健なパラメータ推定を維持しながら校正効率を向上し,多自由度リハビリテーションロボットの高精度アライメントのための実用的なガイダンスを提供する。
関連論文リスト
- Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments [3.915966095774856]
本研究は, ひずみに基づくコッサートロッドモデルを用いた準静電最適化に基づく操作プランナを提案する。
これは、厳密なツールで到達不能なオブジェクトに対して、タスク空間の目的を達成する一方で、制約を通して操作するための変形可能なリンクのコンプライアンスを利用する。
提案アルゴリズムは、様々なhDLOシステム上でのシミュレーションや、双腕ロボットシステムを用いた制約環境で操作された3リンクhDLOの実験で検証される。
論文 参考訳(メタデータ) (2026-03-13T12:34:49Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Calibrating Agent-Based Financial Markets Simulators with Pretrainable Automatic Posterior Transformation-Based Surrogates [5.002657036975061]
エージェントベースモデル(ABM)は複雑な社会システムをシミュレーションするための重要な最適化問題である。
目的は、シミュレーションデータと実世界の観測との差を最小限に抑えて、与えられたABMの最適パラメータを特定することである。
既存の手法では,1) ABMの非線形だがマルチモーダルな性質のため,元の評価関数のサロゲートは困難であり,2) 一般的なサロゲートは複数のキャリブレーションタスク間で最適化経験を共有できない。
本研究は、負相関探索と適応信頼回帰を用いた自動後部変換を提案する。
論文 参考訳(メタデータ) (2026-01-11T14:05:26Z) - Benchmarking Offline Multi-Objective Reinforcement Learning in Critical Care [0.07161783472741748]
批判的なケア環境では、臨床医は競合する目標のバランスをとることの難しさに直面し、主に患者の生存を最大化し、資源利用を最小化する。
単目的強化学習のアプローチは通常、固定されたスカラー化された報酬関数を最適化することでこの問題に対処する。
本稿では,MIMIC-IVデータセット上の3つの単目的ベースラインに対して,3つのオフラインMORLアルゴリズムをベンチマークする。
論文 参考訳(メタデータ) (2025-12-08T20:09:15Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios [4.735413508037063]
本稿では,視覚障害者の補助ナビゲーションに適した運動量制約付きハイブリッド軌道最適化フレームワーク(MHHTOF)を提案する。
残留深部強化学習(DRL)による軌道サンプリング生成、最適化、評価の統合
実験の結果,提案したLSTM-BResPPOは,PPOが要求する約半数のトレーニングにおいて,安定な政策性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2025-09-19T04:33:39Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [65.91490997921859]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化(UAO)フレームワークを提案する。
このフレームワークは、事前訓練されたモデルの事前情報を保持し、関節の不確実性を用いて過度に適合する問題を緩和する。
我々のアプローチは、Human3.6Mの5.5%という大きなマージンで、これまでの最高の結果を上回っています。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - Wasserstein Distributionally Robust Estimation in High Dimensions: Performance Analysis and Optimal Hyperparameter Tuning [2.4578723416255754]
分散ロバスト最適化(DRO)は不確実性の下での見積もりの強力なフレームワークとなっている。
本稿では,DROに基づく線形回帰法を提案し,その中心的問題,すなわちロバストネス半径を最適に選択する方法を提案する。
本手法はクロスバリデーションと同じ効果を示すが,計算コストのごく一部で実現可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。