論文の概要: Fitting Reinforcement Learning Model to Behavioral Data under Bandits
- arxiv url: http://arxiv.org/abs/2511.04454v1
- Date: Thu, 06 Nov 2025 15:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.476467
- Title: Fitting Reinforcement Learning Model to Behavioral Data under Bandits
- Title(参考訳): バンド下の行動データに対する強化学習モデル
- Authors: Hao Zhu, Jasper Hoffmann, Baohe Zhang, Joschka Boedecker,
- Abstract要約: 幅広いRLモデルの適合問題に対する汎用的な数学的最適化問題の定式化を提供する。
凸緩和と最適化に基づくRLモデルの適合問題に対する新しい解法を提案する。
提案手法は,最先端技術に匹敵する性能を達成しつつ,時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 8.22461448966712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of fitting a reinforcement learning (RL) model to some given behavioral data under a multi-armed bandit environment. These models have received much attention in recent years for characterizing human and animal decision making behavior. We provide a generic mathematical optimization problem formulation for the fitting problem of a wide range of RL models that appear frequently in scientific research applications, followed by a detailed theoretical analysis of its convexity properties. Based on the theoretical results, we introduce a novel solution method for the fitting problem of RL models based on convex relaxation and optimization. Our method is then evaluated in several simulated bandit environments to compare with some benchmark methods that appear in the literature. Numerical results indicate that our method achieves comparable performance to the state-of-the-art, while significantly reducing computation time. We also provide an open-source Python package for our proposed method to empower researchers to apply it in the analysis of their datasets directly, without prior knowledge of convex optimization.
- Abstract(参考訳): マルチアームバンディット環境下での行動データに強化学習(RL)モデルを適用することの問題点を考察する。
これらのモデルは近年、人間と動物の意思決定行動の特徴として多くの注目を集めている。
本稿では, 科学的研究に頻繁に現れる広範囲のRLモデルの適合問題に対する汎用的な数学的最適化問題の定式化と, 凸性特性の詳細な理論的解析を行う。
理論的結果に基づいて,凸緩和と最適化に基づくRLモデルの適合問題に対する新しい解法を提案する。
次に,本手法を複数のシミュレーション帯域環境において評価し,文献に現れるベンチマーク手法と比較する。
解析結果から,本手法は最先端技術に匹敵する性能を示しながら,計算時間を著しく短縮することがわかった。
また,提案手法を用いて,コンベックス最適化の事前知識を必要とせずに,研究者がデータセット分析に直接適用できるようにするオープンソースPythonパッケージも提供する。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [11.31665596884142]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Comparative study of regression vs pairwise models for surrogate-based heuristic optimisation [1.2535250082638645]
本稿では, シュロゲート問題の定式化を, 適合度を近似する回帰モデル(表面シュロゲートモデル)と, 分類モデル(ペアワイズ・シュロゲートモデル)を結合する新しい方法の両方として扱う。
オンライン機械学習に基づくサロゲートモデルを用いる場合の全体探索の性能は、予測モデルの精度だけでなく、正または負のケースに対するバイアスの種類にも依存する。
論文 参考訳(メタデータ) (2024-10-04T13:19:06Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。
本稿では,その性能を2つの最先端RL法と比較することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Neural Improvement Heuristics for Graph Combinatorial Optimization
Problems [49.85111302670361]
本稿では,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいニューラル改善(NI)モデルを提案する。
提案モデルは,各地区の操作の選択を誘導する丘登頂に基づくアルゴリズムの基本的な構成要素として機能する。
論文 参考訳(メタデータ) (2022-06-01T10:35:29Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Kernel-Based Models for Influence Maximization on Graphs based on
Gaussian Process Variance Minimization [9.357483974291899]
グラフ上の新しい影響モデル(IM)の導入と検討を行う。
データ駆動アプローチは、このIMモデルの適切なカーネルを決定するために適用することができる。
この分野でコストのかかるモンテカルロシミュレーションに依存するモデルと比較して、我々のモデルはシンプルでコスト効率のよい更新戦略を可能にする。
論文 参考訳(メタデータ) (2021-03-02T08:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。