論文の概要: Reinforcement Learning Measurement Model
- arxiv url: http://arxiv.org/abs/2605.09305v1
- Date: Sun, 10 May 2026 04:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.1806
- Title: Reinforcement Learning Measurement Model
- Title(参考訳): 強化学習測定モデル
- Authors: Wenqian Xu, Feng Ji,
- Abstract要約: 本稿では,タスクレベルの値表現から個人レベルの選択感度を分離する測定フレームワークであるReinforcement Learning Measurement Model (RLMM)を提案する。
このモデルはボルツマン選択規則と正規化された利点、ソフトベルマンのペナルティ、および共同推定のためのブロック座標MAP手順を組み合わせる。
- 参考スコア(独自算出の注目度): 12.072526858407505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive assessments generate sequential process data that are not well handled by conventional item response models. Existing MDP-based measurement approaches, such as the Markov decision process measurement model (MDP-MM, LaMar, 2018), link action choices to state-action values, but their reliance on person-specific tabular value functions makes them difficult to scale beyond small, fully enumerated tasks. We propose the Reinforcement Learning Measurement Model (RLMM), a measurement framework that decouples person-level choice sensitivity from task-level value representation through a shared parametric action-value function, making estimation more computationally efficient for larger process-data settings. The model combines a Boltzmann choice rule with normalized advantages, a soft Bellman consistency penalty, and a block-coordinate MAP procedure for joint estimation, while also yielding step-level influence diagnostics for identifying behaviorally critical decisions. In peg-solitaire simulations, the RLMM achieved higher estimation accuracy and substantially lower runtime than the original MDP-MM, with advantages increasing as task complexity grew. In AQUALAB gameplay logs, the estimated person parameter was positively associated with cumulative reward, task completion, and behavioral efficiency. These results show that the RLMM extends decision-process-based psychometric models to larger and more behaviorally realistic environments while preserving an interpretable latent trait tied to decision making steps.
- Abstract(参考訳): インタラクティブアセスメントは、従来のアイテム応答モデルではうまく扱えないシーケンシャルなプロセスデータを生成する。
マルコフ決定プロセス測定モデル(MDP-MM, LaMar, 2018)のような既存のMDPベースの測定手法は、行動選択を状態-作用値にリンクするが、個人固有の表値関数に依存しているため、小さく、完全に列挙されたタスクを超えてスケールすることが困難である。
本稿では、タスクレベルの選択感度をタスクレベルの値表現から共有パラメトリックアクション値関数を通じて分離し、より大きなプロセスデータ設定に対してより計算効率の高い推定を行うRLMM(Reinforcement Learning Measurement Model)を提案する。
このモデルはボルツマン選択規則と正規化の利点、ソフトベルマン一貫性のペナルティ、共同推定のためのブロック座標MAPプロシージャを組み合わせるとともに、行動クリティカルな決定を識別するためのステップレベルの影響診断を与える。
ペグソリテールシミュレーションでは、RLMMは元のMDP-MMよりも高い推定精度とランタイムを達成し、タスクの複雑さが増大するにつれて利点が増大した。
AQUALABゲームプレイログでは、推定された人物パラメータは累積報酬、タスク完了、行動効率と正の相関を示した。
これらの結果から, RLMMは意思決定過程に基づく心理測定モデルを, より大きく, より行動的にリアルな環境に拡張しつつ, 意思決定ステップに関連付けられた解釈可能な潜伏特性を保っていることがわかった。
関連論文リスト
- Efficient Process Reward Modeling via Contrastive Mutual Information [8.346479730119436]
本稿では,新しい自動報酬表示手法として,CPMI(Contrative Pointwise mutual information)を提案する。
CPMIは、推論ステップがステップと正しいターゲット回答の間の相互情報を増加させる程度を定量化する。
CPMIに基づくラベリングは,MC推定と比較してデータセット構築時間を84%削減し,トークン生成を98%短縮することを示した。
論文 参考訳(メタデータ) (2026-04-12T14:28:35Z) - From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。