論文の概要: Model selection for behavioral learning data and applications to contextual bandits
- arxiv url: http://arxiv.org/abs/2502.13186v1
- Date: Tue, 18 Feb 2025 11:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:26.141912
- Title: Model selection for behavioral learning data and applications to contextual bandits
- Title(参考訳): 行動学習データのモデル選択と文脈帯域への応用
- Authors: Julien Aubert, Louis Köhler, Luc Lehéricy, Giulia Mezzadri, Patricia Reynaud-Bouret,
- Abstract要約: 動物や人間の学習は、環境に適応した行動をもたらす過程である。
この記事では、個人がどのように学習するかを最もよく説明するモデルを見つけるために、この個々の行動データを使用する方法を紹介します。
- 参考スコア(独自算出の注目度): 1.6577455136603667
- License:
- Abstract: Learning for animals or humans is the process that leads to behaviors better adapted to the environment. This process highly depends on the individual that learns and is usually observed only through the individual's actions. This article presents ways to use this individual behavioral data to find the model that best explains how the individual learns. We propose two model selection methods: a general hold-out procedure and an AIC-type criterion, both adapted to non-stationary dependent data. We provide theoretical error bounds for these methods that are close to those of the standard i.i.d. case. To compare these approaches, we apply them to contextual bandit models and illustrate their use on both synthetic and experimental learning data in a human categorization task.
- Abstract(参考訳): 動物や人間の学習は、環境に適応した行動をもたらす過程である。
このプロセスは学習する個人に大きく依存しており、通常は個人の行動を通してのみ観察される。
この記事では、個人がどのように学習するかを最もよく説明するモデルを見つけるために、この個々の行動データを使用する方法を紹介します。
非定常データに適応する一般的なホールドアウト手順とAIC型基準の2つのモデル選択法を提案する。
我々は、標準 i.d. の場合に近いこれらの方法に対する理論的誤差境界を提供する。
これらの手法を比較するために、文脈的バンディットモデルに適用し、人間の分類タスクにおける合成学習データと実験学習データの両方にそれらの使用法を例示する。
関連論文リスト
- Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Protected Attributes Tell Us Who, Behavior Tells Us How: A Comparison of
Demographic and Behavioral Oversampling for Fair Student Success Modeling [6.58879009604603]
リスクのある学生を識別するために行動データを利用するモデルの公正性を解析し、バイアス軽減のための2つの新しい前処理アプローチを提案する。
交差性の概念に基づいて、第一のアプローチは、人口統計特性の組み合わせによるインテリジェントなオーバーサンプリングである。
第二のアプローチは、人口統計学的属性の知識を一切必要とせず、そのような属性が学生の行動の(騒々しい)プロキシであるという仮定に基づいている。
論文 参考訳(メタデータ) (2022-12-20T11:09:11Z) - fAux: Testing Individual Fairness via Gradient Alignment [2.5329739965085785]
いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。
提案手法は,合成データセットと実世界のデータセットの識別を効果的に行う。
論文 参考訳(メタデータ) (2022-10-10T21:27:20Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Evaluation metrics for behaviour modeling [2.616915680939834]
模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案し,検討する。
これらの基準は、行動におけるより長い時間的関係を考察し、振る舞いが本質的に予測不可能な性質を持つ場合と関係し、モデルによって生成された行動の全体分布におけるバイアスを強調する。
提案手法は, 生物学者の行動に関する直観と一致し, モデルの評価, バイアスの理解, 新たな研究方向性の提案を可能にした。
論文 参考訳(メタデータ) (2020-07-23T23:47:24Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - A Comparison of Methods for Treatment Assignment with an Application to
Playlist Generation [13.804332504576301]
文献で提案される様々な手法をアルゴリズムの3つの一般的なクラス(またはメタナー)に分類する。
結果や因果効果の予測を最適化することは、治療課題の最適化と同じではないことを分析的および実証的に示す。
これは、大規模な実世界のアプリケーションにおける3つの異なるメタラーナーの最初の比較である。
論文 参考訳(メタデータ) (2020-04-24T04:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。