Fugu-MT 論文翻訳(概要): gencat: Generative computerized adaptive testing

論文の概要: gencat: Generative computerized adaptive testing

arxiv url: http://arxiv.org/abs/2602.20020v1
Date: Mon, 23 Feb 2026 16:28:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.903407
Title: gencat: Generative computerized adaptive testing
Title（参考訳）: gencat: ジェネレーティブなコンピュータ適応テスト
Authors: Wanyong Feng, Andrew Lan,
Abstract要約: 本稿では,知識推定と質問選択に大規模言語モデルを活用する新しいCATフレームワークであるgenCATを提案する。まず、学生のオープンな回答から学生の知識を推定し、目に見えない質問に対する反応を予測するための生成項目応答理論(GIRT)モデルを開発する。第2に、不確実性、言語的多様性、およびサンプリングされた学生の反応情報に基づいて、GIRTモデルの生成能力を利用する3つの質問選択アルゴリズムを導入する。
参考スコア（独自算出の注目度）: 1.0162911785128765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing computerized Adaptive Testing (CAT) frameworks are typically built on predicting the correctness of a student response to a question. Although effective, this approach fails to leverage textual information in questions and responses, especially for open-ended questions. In this work, we propose GENCAT (\textbf{GEN}erative \textbf{CAT}), a novel CAT framework that leverages Large Language Models for knowledge estimate and question selection. First, we develop a Generative Item Response Theory (GIRT) model that enables us to estimate student knowledge from their open-ended responses and predict responses to unseen questions. We train the model in a two-step process, first via Supervised Fine-Tuning and then via preference optimization for knowledge-response alignment. Second, we introduce three question selection algorithms that leverage the generative capabilities of the GIRT model, based on the uncertainty, linguistic diversity, and information of sampled student responses. Third, we conduct experiments on two real-world programming datasets and demonstrate that GENCAT outperforms existing CAT baselines, achieving an AUC improvement of up to 4.32\% in the key early testing stages.
Abstract（参考訳）: 既存のコンピュータ適応テスト(CAT)フレームワークは通常、質問に対する学生の反応の正しさを予測するために構築されている。このアプローチは有効ではないが、特にオープンエンドの質問に対して、質問や回答のテキスト情報を活用することに失敗する。本研究では,知識推定と質問選択に大規模言語モデルを活用する新しいCATフレームワークであるGENCAT(\textbf{GEN}erative \textbf{CAT})を提案する。まず、学生のオープンな回答から学生の知識を推定し、目に見えない質問に対する反応を予測するための生成項目応答理論(GIRT)モデルを開発する。 2段階のプロセスでモデルをトレーニングし、まずSupervised Fine-Tuningを使用し、その後、知識応答アライメントのための好みの最適化を行う。第2に、不確実性、言語的多様性、およびサンプリングされた学生の反応情報に基づいて、GIRTモデルの生成能力を利用する3つの質問選択アルゴリズムを導入する。第3に、2つの実世界のプログラミングデータセットの実験を行い、GENCATが既存のCATベースラインを上回り、主要な早期テスト段階で最大4.32倍のAUC改善を達成することを実証する。

関連論文リスト

Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文参考訳（メタデータ） (2024-05-22T13:14:11Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Addressing Selection Bias in Computerized Adaptive Testing: A User-Wise Aggregate Influence Function Approach [14.175555669521987]
本稿では,選択バイアス問題に対処するユーザ・ワイド・アグリゲート・インフルエンス関数法を提案する。私たちの直感は、レスポンスデータが集約的に大きく偏っているユーザをフィルタリングすることです。
論文参考訳（メタデータ） (2023-08-23T04:57:21Z)
Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文参考訳（メタデータ） (2023-06-01T21:23:13Z)
QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文参考訳（メタデータ） (2023-03-30T00:42:07Z)
Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文参考訳（メタデータ） (2022-05-30T16:26:02Z)
BOBCAT: Bilevel Optimization-Based Computerized Adaptive Testing [3.756550107432323]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、学生/試験受験者全員にパーソナライズされたテストの一種である。我々は、データ駆動型質問選択アルゴリズムをトレーニングデータから直接学習するための、双方向最適化ベースのCATフレームワークであるBOBCATを提案する。
論文参考訳（メタデータ） (2021-08-17T00:40:23Z)
Quality meets Diversity: A Model-Agnostic Framework for Computerized Adaptive Testing [60.38182654847399]
コンピュータ適応テスト(CAT)は多くのシナリオで有望なテストアプリケーションとして現れています。 CAT ソリューションのための新しいフレームワークである Model-Agnostic Adaptive Testing (MAAT) を提案する。
論文参考訳（メタデータ） (2021-01-15T06:48:50Z)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文参考訳（メタデータ） (2020-05-22T21:34:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。