論文の概要: Human-in-the-Loop Pareto Optimization: Trade-off Characterization for Assist-as-Needed Training and Performance Evaluation
- arxiv url: http://arxiv.org/abs/2603.23777v1
- Date: Tue, 24 Mar 2026 23:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.051981
- Title: Human-in-the-Loop Pareto Optimization: Trade-off Characterization for Assist-as-Needed Training and Performance Evaluation
- Title(参考訳): 対人パレート最適化:アシスト・アズ・ネッドトレーニングのトレードオフ評価と性能評価
- Authors: Harun Tolasa, Volkan Patoglu,
- Abstract要約: 本稿では,タスク性能と認識される課題レベルのトレードオフを特徴付ける新しいHuman-in-the-loop(HiL)最適化手法を提案する。
筆者らのHL最適化は,定量的な測定値で性能を計測するハイブリッドモデルを用いており,評価された課題レベルは定性的な測定値で捉えていることを示す。
本稿では,触覚フィードバックを伴う手動スキルトレーニングタスクの文脈における3つのユースケースを通して,フレームワークの有用性を示す。
- 参考スコア(独自算出の注目度): 2.1700203922407497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During human motor skill training and physical rehabilitation, there is an inherent trade-off between task difficulty and user performance. Characterizing this trade-off is crucial for evaluating user performance, designing assist-as-needed (AAN) protocols, and assessing the efficacy of training protocols. In this study, we propose a novel human-in-the-loop (HiL) Pareto optimization approach to characterize the trade-off between task performance and the perceived challenge level of motor learning or rehabilitation tasks. We adapt Bayesian multi-criteria optimization to systematically and efficiently perform HiL Pareto characterizations. Our HiL optimization employs a hybrid model that measures performance with a quantitative metric, while the perceived challenge level is captured with a qualitative metric. We demonstrate the feasibility of the proposed HiL Pareto characterization through a user study. Furthermore, we present the utility of the framework through three use cases in the context of a manual skill training task with haptic feedback. First, we demonstrate how the characterized trade-off can be used to design a sample AAN training protocol for a motor learning task and to evaluate the group-level efficacy of the proposed AAN protocol relative to a baseline adaptive assistance protocol. Second, we demonstrate that individual-level comparisons of the trade-offs characterized before and after the training session enable fair evaluation of training progress under different assistance levels. This evaluation method is more general than standard performance evaluations, as it can provide insights even when users cannot perform the task without assistance. Third, we show that the characterized trade-offs also enable fair performance comparisons among different users, as they capture the best possible performance of each user under all feasible assistance levels.
- Abstract(参考訳): ヒトの運動スキルトレーニングと体力回復の間には,課題難易度とユーザパフォーマンスのトレードオフが生まれている。
このトレードオフの特徴付けは、ユーザパフォーマンスの評価、AANプロトコルの設計、トレーニングプロトコルの有効性の評価に不可欠である。
本研究では,Human-in-the-loop (HiL) Pareto最適化手法を提案する。
我々はベイジアン多基準最適化に適応し、HiL Paretoの特性評価を系統的かつ効率的に行う。
我々のHiL最適化では、定量的な測定値で性能を計測するハイブリッドモデルを用いており、認識されたチャレンジレベルは定性的な測定値でキャプチャされる。
提案したHiL Pareto キャラクタリゼーションのユーザスタディによる実現可能性を示す。
さらに,触覚フィードバックを伴う手動スキルトレーニングタスクの文脈における3つのユースケースを通して,フレームワークの有用性を示す。
まず,運動学習タスクのためのサンプルAANトレーニングプロトコルを設計し,ベースライン適応支援プロトコルに対して提案したAANプロトコルの群レベルの有効性を評価する。
第2に、トレーニングセッション前後で特徴付けられるトレードオフの個人レベルの比較により、異なる支援レベル下でのトレーニングの進捗を公平に評価できることを実証する。
本手法は,ユーザが支援なしにタスクを遂行できない場合でも洞察を得られるため,従来の性能評価よりも一般的である。
第3に、特徴のあるトレードオフは、各ユーザの最高のパフォーマンスを、すべての現実的な支援レベル下で捉えることによって、異なるユーザ間の公正なパフォーマンス比較を可能にすることを示す。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。