論文の概要: Addressing Selection Bias in Computerized Adaptive Testing: A User-Wise
Aggregate Influence Function Approach
- arxiv url: http://arxiv.org/abs/2308.11912v1
- Date: Wed, 23 Aug 2023 04:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:47:33.852580
- Title: Addressing Selection Bias in Computerized Adaptive Testing: A User-Wise
Aggregate Influence Function Approach
- Title(参考訳): コンピュータ適応テストにおける選択バイアスへの対処--ユーザ要求の影響関数アプローチ
- Authors: Soonwoo Kwon, Sojung Kim, Seunghyun Lee, Jin-Young Kim, Suyeong An,
and Kyuseok Kim
- Abstract要約: 本稿では,選択バイアス問題に対処するユーザ・ワイド・アグリゲート・インフルエンス関数法を提案する。
私たちの直感は、レスポンスデータが集約的に大きく偏っているユーザをフィルタリングすることです。
- 参考スコア(独自算出の注目度): 14.175555669521987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computerized Adaptive Testing (CAT) is a widely used, efficient test mode
that adapts to the examinee's proficiency level in the test domain. CAT
requires pre-trained item profiles, for CAT iteratively assesses the student
real-time based on the registered items' profiles, and selects the next item to
administer using candidate items' profiles. However, obtaining such item
profiles is a costly process that involves gathering a large, dense
item-response data, then training a diagnostic model on the collected data. In
this paper, we explore the possibility of leveraging response data collected in
the CAT service. We first show that this poses a unique challenge due to the
inherent selection bias introduced by CAT, i.e., more proficient students will
receive harder questions. Indeed, when naively training the diagnostic model
using CAT response data, we observe that item profiles deviate significantly
from the ground-truth. To tackle the selection bias issue, we propose the
user-wise aggregate influence function method. Our intuition is to filter out
users whose response data is heavily biased in an aggregate manner, as judged
by how much perturbation the added data will introduce during parameter
estimation. This way, we may enhance the performance of CAT while introducing
minimal bias to the item profiles. We provide extensive experiments to
demonstrate the superiority of our proposed method based on the three public
datasets and one dataset that contains real-world CAT response data.
- Abstract(参考訳): コンピュータ化適応テスト(computerized adaptive testing、cat)は、テスト領域における試験者の熟練度レベルに適応する、広く使用される効率的なテストモードである。
CATは、登録されたアイテムのプロファイルに基づいて学生のリアルタイムを反復的に評価し、次のアイテムを選択し、候補アイテムのプロファイルを使用して管理する。
しかし、そのようなアイテムプロファイルを取得することは、巨大な高密度なアイテムレスポンスデータを収集し、収集したデータに基づいて診断モデルをトレーニングするコストのかかるプロセスである。
本稿では,CATサービスで収集した応答データを活用する可能性を検討する。
まず,猫が生み出す固有の選択バイアス,つまりより熟練した生徒は難しい質問を受けることになるため,これがユニークな課題であることを示す。
実際,猫の反応データを用いて診断モデルを素直に訓練する場合,項目プロファイルが表裏から大きく逸脱するのを観察した。
選択バイアス問題に対処するため,ユーザ・ワイド・アグリゲート・インフルエンス関数法を提案する。
我々の直感は、パラメータ推定中に追加されたデータがどの程度の摂動をもたらすかによって判断されるように、応答データが集約的に大きくバイアスされたユーザーをフィルタリングすることである。
このようにして、アイテムプロファイルに最小限のバイアスを導入しながら、CATの性能を向上させることができる。
3つの公開データセットと,実世界の猫応答データを含む1つのデータセットに基づいて,提案手法の優越性を示す実験を行った。
関連論文リスト
- Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - BOBCAT: Bilevel Optimization-Based Computerized Adaptive Testing [3.756550107432323]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、学生/試験受験者全員にパーソナライズされたテストの一種である。
我々は、データ駆動型質問選択アルゴリズムをトレーニングデータから直接学習するための、双方向最適化ベースのCATフレームワークであるBOBCATを提案する。
論文 参考訳(メタデータ) (2021-08-17T00:40:23Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。