論文の概要: Automatic Generation of Inference Making Questions for Reading Comprehension Assessments
- arxiv url: http://arxiv.org/abs/2506.08260v1
- Date: Mon, 09 Jun 2025 21:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.853586
- Title: Automatic Generation of Inference Making Questions for Reading Comprehension Assessments
- Title(参考訳): 読解知識評価のための推論質問の自動生成
- Authors: Wanjing Anya Ma, Michael Flor, Zuowei Wang,
- Abstract要約: 推論作成は読書理解(RC)において不可欠だが複雑なスキルである
本稿では、RCの推論型分類を導入し、診断RCアイテムバンク内のアイテムの分布を分析する。
本稿では, GPT-4o を用いて, 数発のプロンプトにより, 所与の読み出し経路に対してブリッジング推論RCアイテムを生成する実験を行った。
- 参考スコア(独自算出の注目度): 3.0251336725340807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference making is an essential but complex skill in reading comprehension (RC). Some inferences require resolving references across sentences, and some rely on using prior knowledge to fill in the detail that is not explicitly written in the text. Diagnostic RC questions can help educators provide more effective and targeted reading instruction and interventions for school-age students. We introduce a taxonomy of inference types for RC and use it to analyze the distribution of items within a diagnostic RC item bank. Next, we present experiments using GPT-4o to generate bridging-inference RC items for given reading passages via few-shot prompting, comparing conditions with and without chain-of-thought prompts. Generated items were evaluated on three aspects: overall item quality, appropriate inference type, and LLM reasoning, achieving high inter-rater agreements above 0.90. Our results show that GPT-4o produced 93.8% good-quality questions suitable for operational use in grade 3-12 contexts; however, only 42.6% of the generated questions accurately matched the targeted inference type. We conclude that combining automatic item generation with human judgment offers a promising path toward scalable, high-quality diagnostic RC assessments.
- Abstract(参考訳): 推論作成は、読み取り理解(RC)において必須だが複雑なスキルである。
いくつかの推論では、文間で参照を解決する必要があり、テキストに明示的に書かれていない詳細を埋めるために、事前の知識を使う必要がある。
診断RCの質問は、教育者がより効果的で対象とする読書指導や介入を支援するのに役立つ。
本稿では、RCの推論型分類を導入し、診断RCアイテムバンク内のアイテムの分布を分析する。
次に, GPT-4oを用いて, チェーン・オブ・シークレット・プロンプトと非シークレット・プロンプトの条件を比較し, 任意の読み出しパスに対してブリッジング推論RCアイテムを生成する実験を行った。
生成項目は, 項目品質, 適切な推論タイプ, LLM推論の3つの側面から評価し, 0.90 以上の高いレータ間合意を達成した。
その結果, GPT-4oは3~12の文脈において, 運用に適した品質の高い質問を93.8%生成したが, 対象の推論型と正確に一致した質問は42.6%に過ぎなかった。
我々は,自動項目生成と人的判断を組み合わせることで,スケーラブルで高品質な診断RCアセスメントを実現することができると結論付けた。
関連論文リスト
- Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation [5.259846811078731]
我々は、明確化のためのあいまいさの概念に注目し、明確化プロセスにおいてあいまいさをモデル化し統合することを模索する。
我々はこの新しいプロンプトスキームをAmbiguity Type-Chain of Thought (AT-CoT)と名付けた。
論文 参考訳(メタデータ) (2025-04-16T14:21:02Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Understanding Practitioners' Expectations on Clear Code Review Comments [13.42435511348962]
コードレビューコメント(CRC)は、特定された問題と提案された解決策の正しい理解に不可欠である。
CRCの明確さの重要性にもかかわらず、良い明快さを構成するものやその評価方法に関するガイドラインがまだ不足している。
まず,CRCの明瞭度に関する属性と,文献レビューと実践者による調査に基づく評価基準のセットを導出する。
その後、9つのプログラミング言語で書かれたオープンソースプロジェクトにおけるCRCの明確さを調査し、CRCの大部分が(28.8%)その明確さを欠いていることを発見した。
論文 参考訳(メタデータ) (2024-10-09T03:30:59Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Measuring Retrieval Complexity in Question Answering Systems [64.74106622822424]
検索複雑性(Retrieval complexity, RC)は、検索された文書の完全性に基づく新しい計量である。
任意の検索システムを用いてRCを計測するための教師なしパイプラインを提案する。
本システムは検索システムに大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-05T19:30:52Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。