論文の概要: Player Modeling via Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2102.05264v1
- Date: Wed, 10 Feb 2021 05:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:48:06.296038
- Title: Player Modeling via Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンドを用いたプレイヤーモデリング
- Authors: Robert C. Gray, Jichen Zhu, Dannielle Arigo, Evan Forman and Santiago
Onta\~n\'on
- Abstract要約: マルチアームバンディット(MAB)に基づく新しいプレイヤーモデリング手法を提案する。
本研究では,ユーザ研究におけるデータ生成に先立って,これらのアルゴリズムの評価と微調整を行うアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.64975374754221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on building personalized player models solely from player
behavior in the context of adaptive games. We present two main contributions:
The first is a novel approach to player modeling based on multi-armed bandits
(MABs). This approach addresses, at the same time and in a principled way, both
the problem of collecting data to model the characteristics of interest for the
current player and the problem of adapting the interactive experience based on
this model. Second, we present an approach to evaluating and fine-tuning these
algorithms prior to generating data in a user study. This is an important
problem, because conducting user studies is an expensive and labor-intensive
process; therefore, an ability to evaluate the algorithms beforehand can save a
significant amount of resources. We evaluate our approach in the context of
modeling players' social comparison orientation (SCO) and present empirical
results from both simulations and real players.
- Abstract(参考訳): 本稿では,アダプティブゲームにおけるプレイヤー行動のみからパーソナライズされたプレイヤーモデルを構築することに焦点を当てる。
1つ目は、マルチアームバンド(mabs)に基づくプレイヤーモデリングに対する新しいアプローチです。
このアプローチは,現在のプレーヤの関心特性をモデル化するためにデータ収集の問題と,このモデルに基づいてインタラクティブなエクスペリエンスを適用する問題の両方を同時にかつ原則的に解決する。
第2に,ユーザ調査でデータを生成する前に,これらのアルゴリズムを評価し,微調整する手法を提案する。
ユーザ研究は費用がかかり、労働集約的なプロセスであるため、事前にアルゴリズムを評価する能力は大量のリソースを節約できるため、これは重要な問題である。
我々は,プレイヤーの社会的比較傾向(SCO)をモデル化し,シミュレーションと実プレイヤーの両方から経験的な結果を示す。
関連論文リスト
- Difficulty Modelling in Mobile Puzzle Games: An Empirical Study on
Different Methods to Combine Player Analytics and Simulated Data [0.0]
一般的なプラクティスは、プレイヤーとコンテンツとのインタラクションによって収集されたデータからメトリクスを作成することです。
これにより、コンテンツがリリースされた後にのみ見積が可能であり、将来のプレイヤーの特徴を考慮しない。
本稿では,そのような条件下での難易度推定の潜在的な解を多数提示する。
論文 参考訳(メタデータ) (2024-01-30T20:51:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Multi-Modal Experience Inspired AI Creation [15.780729577587673]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Towards Action Model Learning for Player Modeling [1.9659095632676098]
プレイヤーモデリングは、ゲームにおけるプレイヤーの振る舞いを正確に近似する計算モデルを作ろうとする。
ほとんどのプレイヤーモデリング技術はドメイン知識に依存しており、ゲーム間で転送できない。
本稿では,アクションモデル学習(AML)を用いて,ドメインに依存しない方法でプレーヤモデルを学習する。
論文 参考訳(メタデータ) (2021-03-09T19:32:30Z) - Data-driven Koopman Operators for Model-based Shared Control of
Human-Machine Systems [66.65503164312705]
本稿では,データ駆動型共有制御アルゴリズムを提案する。
ユーザのインタラクションに関するダイナミクスと情報は、Koopman演算子を使用して観察から学習される。
モデルに基づく共有制御は、自然な学習やユーザのみの制御パラダイムと比較して、タスクとコントロールのメトリクスを著しく改善する。
論文 参考訳(メタデータ) (2020-06-12T14:14:07Z) - Sample-Efficient Model-based Actor-Critic for an Interactive Dialogue
Task [27.896714528986855]
対話型対話タスクのためのモデルに基づく強化学習を提案する。
一般的なアクター批判的手法に基づいて構築し、学習エージェントに学習を促す環境モデルとプランナーを追加します。
この結果から,対話型タスクを模倣したシミュレーションでは,一般的なモデルフリーアルゴリズムのベースラインに比べて,70倍のサンプルを必要とすることがわかった。
論文 参考訳(メタデータ) (2020-04-28T17:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。