論文の概要: Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.07797v1
- Date: Sun, 08 Mar 2026 20:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.285264
- Title: Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習による人間の動作に対する大域的インテント推論に向けて
- Authors: Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti,
- Abstract要約: 本稿では,1つの統合コスト関数が人間の到達動作を説明・予測できるかどうかを考察する。
最小観測逆強化学習(MO-IRL)アルゴリズムと7次元の候補コスト項を用いて,時間変動コスト重みを効率的に推定する。
総合的に,1つの主観的および姿勢に依存しない時間変動コスト関数を用いて,人間の到達軌道を高精度に予測する。
- 参考スコア(独自算出の注目度): 6.111947905893469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates whether a single, unified cost function can explain and predict human reaching movements, in contrast with existing approaches that rely on subject- or posture-specific optimization criteria. Using the Minimal Observation Inverse Reinforcement Learning (MO-IRL) algorithm, together with a seven-dimensional set of candidate cost terms, we efficiently estimate time-varying cost weights for a standard planar reaching task. MO-IRL provides orders-of-magnitude faster convergence than bilevel formulations, while using only a fraction of the available data, enabling the practical exploration of time-varying cost structures. Three levels of generality are evaluated: Subject-Dependent Posture-Dependent, Subject-Dependent Posture-Independent, and Subject-Independent Posture-Independent. Across all cases, time-varying weights substantially improve trajectory reconstruction, yielding an average 27% reduction in RMSE compared to the baseline. The inferred costs consistently highlight a dominant role for joint-acceleration regulation, complemented by smaller contributions from torque-change smoothness. Overall, a single subject- and posture-agnostic time-varying cost function is shown to predict human reaching trajectories with high accuracy, supporting the existence of a unified optimality principle governing this class of movements.
- Abstract(参考訳): 本稿では,単体で統一されたコスト関数が,主観的・姿勢特異的な最適化基準に依存する既存のアプローチとは対照的に,人間の到達動作を説明・予測できるかどうかを検討する。
最小観測逆強化学習(MO-IRL)アルゴリズムを用いて,標準平面到達タスクの時間変化コスト重みを効率的に推定する。
MO-IRLは、2段階の定式化よりも高速な収束を提供すると同時に、利用可能なデータのごく一部しか使用せず、時間的なコスト構造を実際に探究することが可能である。
主観的姿勢非依存,主観的姿勢非依存,主観的姿勢非依存の3つのレベルが評価された。
いずれの場合も、時間変化の重みは軌道再構成を著しく改善し、RMSEはベースラインに比べて平均27%減少する。
推定コストは、トルク変化のスムーズさによる小さな貢献によって補完される、共同加速制御における支配的な役割を一貫して強調する。
全体として、単体および姿勢に依存しない時間変動コスト関数は、人間の到達軌道を高い精度で予測し、この種類の運動を統括する統一最適原理の存在を支持する。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning [40.2017873619555]
ESearch-R1はコスト認識型推論フレームワークである。
対話型対話(Ask)、エピソードメモリ検索(GetMemory)、物理ナビゲーション(Navigate)を単一の決定プロセスに統合する。
総運用コストを約50%削減し、タスク成功率を向上させる。
論文 参考訳(メタデータ) (2025-12-21T02:45:08Z) - A non-smooth regularization framework for learning over multitask graphs [4.890485563104726]
非滑らかな正規化技術は、ポーラシティを促進し、グラフ上の断片的な定数遷移を促進するのに特に効果的である。
本稿では,正規化最適化問題に対する効率的な解法を実現するための分散学習手法を提案する。
より広い適用性と計算効率の向上のために、よく使われる非平滑正規化器の閉形式式を導出する。
論文 参考訳(メタデータ) (2025-09-22T12:58:53Z) - Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文 参考訳(メタデータ) (2025-06-09T17:14:41Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - TrackFlow: Multi-Object Tracking with Normalizing Flows [36.86830078167583]
トラッキング・バイ・ディテクトをマルチモーダル・セッティングに拡張することを目的としている。
3D情報の大まかな見積も利用可能であり、他の伝統的なメトリクスとマージする必要がある。
提案手法は,複数のトラッキング・バイ・検出アルゴリズムの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2023-08-22T15:40:03Z) - Distributed Unconstrained Optimization with Time-varying Cost Functions [1.52292571922932]
目的は、各時点の総コストを最小限に抑える最適な軌道を追跡することである。
提案手法は,2段階のダイナミックスから成り,まず第1段階と第2段階の局所的コストの導関数をサンプリングし,最適軌道への降下方向の推定を周期的に構築する。
提案手法の性能を示すために,アルゴリズムのパラメータとその局所状態の収束に対する効果を最適軌道に調整する数値実験を行った。
論文 参考訳(メタデータ) (2022-12-12T23:59:54Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。