論文の概要: Which Questions Improve Learning the Most? Utility Estimation of Questions with LM-based Simulations
- arxiv url: http://arxiv.org/abs/2502.17383v2
- Date: Thu, 07 Aug 2025 05:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 16:47:38.739496
- Title: Which Questions Improve Learning the Most? Utility Estimation of Questions with LM-based Simulations
- Title(参考訳): どの質問が一番学習を改善するか? : LMシミュレーションによる質問の実用性評価
- Authors: Dong-Ho Lee, Hyundong Cho, Jonathan May, Jay Pujara,
- Abstract要約: 本稿では,言語モデルを用いて学習者のシミュレートと質問の有用性の定量化を行うフレームワークであるQUESTを紹介する。
QUESTは、質問をし、教科書の章を勉強している間に回答を受け取った学習者をシミュレートし、それを使ってチャプタ試験を終了させる。
実験の結果、QUESTでトレーニングされたモデルによって生成された質問は、強いベースラインと比較して、シミュレーションテストのスコアを20%以上改善することがわかった。
- 参考スコア(独自算出の注目度): 37.87879572754863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asking good questions is critical for comprehension and learning, yet evaluating and generating such questions remains a challenging problem. Prior work on inquisitive questions focuses on learner-generated, curiosity-driven queries and evaluates them using indirect metrics, such as salience or information gain, that do not directly capture a question's impact on actual learning outcomes. We introduce QUEST (Question Utility Estimation with Simulated Tests), a framework that uses language models to simulate learners and directly quantify the utility of a question - its contribution to exam performance. QUEST simulates a learner who asks questions and receives answers while studying a textbook chapter, then uses them to take an end-of-chapter exam. Through this simulation, the utility of each question is estimated by its direct effect on exam performance, rather than inferred indirectly based on the underlying content. To support this evaluation, we curate TEXTBOOK-EXAM, a benchmark that aligns textbook sections with end-of-section exam questions across five academic disciplines. Using QUEST, we filter for high-utility questions and fine-tune question generators via rejection sampling. Experiments show that questions generated by QUEST-trained models improve simulated test scores by over 20% compared to strong baselines that are fine-tuned using indirect metrics or leverage prompting methods. Furthermore, utility is only weakly correlated with salience and similarity to exam questions, suggesting that it captures unique signal that benefits downstream performance. QUEST offers a new outcome-driven paradigm for question evaluation and generation - one that moves beyond question-answer content toward measurable improvements in learning outcomes.
- Abstract(参考訳): 良い質問をすることは理解と学習にとって重要であるが、そのような質問を評価し、生成することは難しい問題である。
質問に対する先行研究は、学習者が生成し、好奇心を駆使したクエリに焦点を当て、サリエンスや情報ゲインといった、実際の学習結果に対する質問の影響を直接捉えない間接的な指標を用いてそれらを評価する。
QUEST(Question Utility Estimation with Simulated Tests)は,言語モデルを用いて学習者をシミュレートし,質問の有用性を直接定量化するフレームワークである。
QUESTは、質問をし、教科書の章を勉強している間に回答を受け取った学習者をシミュレートし、それを使ってチャプタ試験を終了させる。
このシミュレーションにより,各質問の効用は,その基礎となる内容に基づいて間接的に推測されるのではなく,試験結果に対する直接的な効果によって推定される。
この評価を支援するために,教科書セクションと5つの学術分野の終末試験質問を整列するベンチマークであるTEXTBOOK-EXAMをキュレートする。
QUESTを用いて,高ユーティリティ質問と微調整質問生成器をリジェクションサンプリングによりフィルタリングする。
実験によると、QUESTでトレーニングされたモデルによって生成された質問は、間接的なメトリクスやプロンプトメソッドを使って微調整された強いベースラインと比較して、シミュレーションテストスコアを20%以上改善している。
さらに、実用性は、サリエンスと試験問題との類似性に弱い相関しか持たず、下流のパフォーマンスに利益をもたらすユニークなシグナルを捉えることを示唆している。
QUESTは、質問に対する評価と生成のための新しい結果駆動のパラダイムを提供する。
関連論文リスト
- MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。
オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文 参考訳(メタデータ) (2025-06-18T07:49:13Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - Uncertainty Quantification in Retrieval Augmented Question Answering [57.05827081638329]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。
我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文 参考訳(メタデータ) (2025-02-25T11:24:52Z) - Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores [16.434748534272014]
PlausibleQAは1万の質問と10万の候補回答からなるデータセットで、妥当性スコアと正当化が付与されている。
提案手法は,Multiple-Choice Question Answering (MCQA) とQARAに対して有効であることを示す。
論文 参考訳(メタデータ) (2025-02-22T21:14:18Z) - Does Multiple Choice Have a Future in the Age of Generative AI? A Posttest-only RCT [2.116573423199236]
効果的な学習ツールとしてのマルチチョイス質問(MCQ)の役割は過去の研究で議論されてきた。
本研究は,学習におけるオープン応答型質問に対するMCQの有効性を評価する。
テスト後の条件間では有意な学習差は認められなかったが,教官の指導に要した時間は大幅に短縮された。
論文 参考訳(メタデータ) (2024-12-13T16:37:20Z) - Knowledge Graphs are all you need: Leveraging KGs in Physics Question Answering [28.279969366096978]
質問回答タスクに対するモデル応答品質の向上を目的としたパイプラインを導入する。
LLMを用いて質問の内部ロジックをキャプチャする知識グラフを構築することにより、これらのグラフはサブクエストの生成をガイドする。
その結果,知識グラフから派生したサブクエストは,元の質問の論理に対する忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-06T22:25:23Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Reinforcement Learning for Abstractive Question Summarization with
Question-aware Semantic Rewards [20.342580435464072]
本稿では,抽象的な質問要約のための強化学習に基づくフレームワークを提案する。
i)質問型識別と(ii)質問焦点認識の下流タスクから得られる2つの新しい報酬を提案する。
これらの報酬は意味論的に有効な質問の生成を確実にし、質問要約に重要な医療機関/焦点を取り入れることを奨励する。
論文 参考訳(メタデータ) (2021-07-01T02:06:46Z) - Few-Shot Complex Knowledge Base Question Answering via Meta
Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。
従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。
本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-29T18:34:55Z) - Introducing a framework to assess newly created questions with Natural
Language Processing [3.364554138758565]
本稿では,新たに作成された複数質問の難易度と差別度を推定するためのモデルを訓練し,評価する枠組みを提案する。
このフレームワークを使って1つのモデルを実装し、CloudAcademyが提供する実世界のデータセットでテストします。
論文 参考訳(メタデータ) (2020-04-28T13:57:21Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。