論文の概要: Amortised Design Optimization for Item Response Theory
- arxiv url: http://arxiv.org/abs/2307.09891v1
- Date: Wed, 19 Jul 2023 10:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:27:18.163017
- Title: Amortised Design Optimization for Item Response Theory
- Title(参考訳): アイテム応答理論の償却設計最適化
- Authors: Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes
- Abstract要約: 教育における項目応答理論(IRT)は、学生の反応から学生の能力とテスト項目の特徴を推定するために用いられる。
そこで本研究では、IRTにアモートされた実験設計を取り入れることを提案する。
計算コストは、Deep Reinforcement Learning (DRL)エージェントを合成データでトレーニングすることにより、事前計算フェーズに移行する。
- 参考スコア(独自算出の注目度): 5.076871870091048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item Response Theory (IRT) is a well known method for assessing responses
from humans in education and psychology. In education, IRT is used to infer
student abilities and characteristics of test items from student responses.
Interactions with students are expensive, calling for methods that efficiently
gather information for inferring student abilities. Methods based on Optimal
Experimental Design (OED) are computationally costly, making them inapplicable
for interactive applications. In response, we propose incorporating amortised
experimental design into IRT. Here, the computational cost is shifted to a
precomputing phase by training a Deep Reinforcement Learning (DRL) agent with
synthetic data. The agent is trained to select optimally informative test items
for the distribution of students, and to conduct amortised inference
conditioned on the experiment outcomes. During deployment the agent estimates
parameters from data, and suggests the next test item for the student, in close
to real-time, by taking into account the history of experiments and outcomes.
- Abstract(参考訳): 項目応答理論 (IRT) は、教育と心理学における人間からの反応を評価する方法としてよく知られている。
教育において、irtは学生の反応からテスト項目の能力や特性を推測するために用いられる。
学生とのインタラクションは高価であり、学生の能力を評価するために効率的に情報を集める方法を求めている。
最適実験設計(OED)に基づく手法は計算コストがかかり、対話型アプリケーションには適用できない。
そこで本研究では,irtに償却実験設計を組み入れることを提案する。
ここでは、Deep Reinforcement Learning (DRL)エージェントを合成データでトレーニングすることにより、計算コストを事前計算フェーズに移行する。
エージェントは、学生の分布を最適に知らせるテスト項目を選択し、実験結果に応じて償却推論を行うように訓練される。
エージェントはデータからパラメータを推定し、実験と結果の履歴を考慮し、リアルタイムに近い次のテスト項目を学生に提案する。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Implicit assessment of language learning during practice as accurate as explicit testing [0.5749787074942512]
コンピュータ支援型言語学習において,2つの文脈における学生の能力評価に項目応答理論(IRT)を用いる。
まず、効率は良いが正確な適応テストで徹底的なテストを置き換えることを目的としている。
第2に,エクササイズによる実践の文脈から直接,テストなしで学習者の能力を正確に推定できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T14:40:44Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Effect Size Estimation for Duration Recommendation in Online Experiments: Leveraging Hierarchical Models and Objective Utility Approaches [13.504353263032359]
仮定効果サイズ(AES)の選択は、実験の期間を決定的に決定し、その結果、その精度と効率が決定される。
伝統的に、実験者はドメイン知識に基づいてAESを決定するが、この方法は多数の実験を管理するオンライン実験サービスにとって実用的ではない。
オンライン実験サービスにおけるデータ駆動型AES選択のための2つのソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-20T09:34:28Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Amortised Experimental Design and Parameter Estimation for User Models
of Pointing [5.076871870091048]
我々は、データを収集し、パラメーターをできるだけ効率的に推論するために実験をどのように設計するかを示す。
シミュレーション参加者を用いて実験設計を選択するための政策を訓練する。
提案手法は, モデル空間から採取したシリカ内エージェントと相互作用して, パラメータ推定に最も有用なデータを提供する実験を学習する。
論文 参考訳(メタデータ) (2023-07-19T10:17:35Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - Use-Case-Grounded Simulations for Explanation Evaluation [23.584251632331046]
シミュレーション評価(SimEvals)について紹介する。
SimEvalsは、人間の被験者の被験者に提示される情報の内容を入力するアルゴリズムエージェントを訓練する。
実世界の3つのユースケースについて総合的な評価を行い、Simevalsが各ユースケースにおいてどの説明方法が人間に役立つかを効果的に特定できることを実証した。
論文 参考訳(メタデータ) (2022-06-05T20:12:19Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - Active Learning-Based Optimization of Scientific Experimental Design [1.9705094859539976]
Active Learning(AL)は、ラベル付きトレーニングインスタンスを少なくすることで、より精度の高い機械学習アルゴリズムである。
本稿では,提案したALスキームを用いた薬物応答データセットの振り返り研究を行う。
これは、手動で設定するのではなく、科学的な実験設計がALによって最適化可能であることを示している。
論文 参考訳(メタデータ) (2021-12-29T20:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。