論文の概要: Difficulty-Controllable Multiple-Choice Question Generation Using Large Language Models and Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.19265v1
- Date: Wed, 22 Oct 2025 05:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.142621
- Title: Difficulty-Controllable Multiple-Choice Question Generation Using Large Language Models and Direct Preference Optimization
- Title(参考訳): 大規模言語モデルと直接選好最適化を用いた難易度制御可能な多項目質問生成
- Authors: Yuto Tomikawa, Masaki Uto,
- Abstract要約: 本研究は,読解理解のための難易度制御可能な複数選択質問生成手法を提案する。
直接選好最適化技術を用いて訓練された大きな言語モデルを使用して、難易度制御の精度を向上させる。
- 参考スコア(独自算出の注目度): 0.31511847280063693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Difficulty-controllable question generation for reading comprehension has gained significant attention in the field of education as a fundamental tool for adaptive learning support. Although several neural question generation methods have recently succeeded in controlling difficulty, conventional approaches still face two major limitations. First, they cannot directly generate multiple-choice questions, which are the most widely used question type in educational contexts. Second, they are not explicitly trained to optimize the accuracy of difficulty control, leaving room for further improvement in difficulty controllability. To address these limitations, this study proposes a novel difficulty-controllable multiple-choice question generation method for reading comprehension which leverages a large language model trained using a direct preference optimization technique to improve the accuracy of difficulty control.
- Abstract(参考訳): 適応学習支援の基本的なツールとしての教育分野において,読解理解のための難易度の高い質問生成が注目されている。
最近、いくつかのニューラル質問生成法が難易度を制御することに成功したが、従来のアプローチでは2つの大きな制限に直面している。
第一に、教育的文脈において最も広く使われている質問タイプである複数選択の質問を直接生成することはできない。
第二に、それらは、難易度制御の精度を最適化するために明示的に訓練されておらず、さらに難易度制御性を向上させる余地を残している。
そこで本研究では, 直接選好最適化手法を用いて学習した大規模言語モデルを利用して, 難易度制御の精度を向上させる, 読解理解のための新しい難易度制御型複数選択質問生成手法を提案する。
関連論文リスト
- A Dual Perspective on Decision-Focused Learning: Scalable Training via Dual-Guided Surrogates [1.7100385719232911]
意思決定にフォーカスした学習は、予測がどのようにリフレッシュするかを意識してモデルを訓練し、下流の意思決定のパフォーマンスを改善します。
最先端のメソッドはソルバを通じて区別するか、タスク固有のサロゲートに依存します。
本稿では,2変数を用いた形状学習とデュアルガイドロス(DGL)の導入について述べる。
DGLは最先端のDFLメソッドと一致または超過するが、呼び出しははるかに少なく、トレーニング時間もかなり少ない。
論文 参考訳(メタデータ) (2025-11-07T01:15:15Z) - Difficulty-Controllable Cloze Question Distractor Generation [20.062590379176218]
言語能力と理解度を評価するために、多選択クローゼ質問が一般的に用いられる。
本稿では,データ拡張とマルチタスク学習の両戦略を活用することで,分散処理を制御し難いものにするための新しいフレームワークを提案する。
本手法は, 難易度にまたがる高品質なトラクタを生成し, GPT-4oを著しく上回り, トラクタの難易度と人間の知覚との整合性を示す。
論文 参考訳(メタデータ) (2025-11-03T12:42:25Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Improving Socratic Question Generation using Data Augmentation and Preference Optimization [2.1485350418225244]
大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
これらの LLM をプロンプトする既存の手法は、時に無効な出力を生成する。
本研究では,既存のソクラテス質問データセットを,特定の方法で無効な質問で強化するデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T00:08:20Z) - Toward Unified Controllable Text Generation via Regular Expression
Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。
提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文 参考訳(メタデータ) (2023-09-19T09:05:14Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Unsupervised Automata Learning via Discrete Optimization [4.5726613073750135]
与えられたラベルなし単語の多元集合から決定論的有限オートマトン(DFA)を学習するためのフレームワークを提案する。
この問題は計算的に困難であることが示され,制約最適化に基づく3つの学習アルゴリズムが開発された。
DFAの全体的な解釈性を改善するため,最適化問題に対する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Learning to Generalize for Sequential Decision Making [19.075378799280728]
本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
論文 参考訳(メタデータ) (2020-10-05T18:00:03Z) - Posterior Control of Blackbox Generation [126.33511630879713]
我々は、構造化潜在変数アプローチにより学習した離散制御状態を持つニューラルジェネレーションモデルの拡張を検討する。
この手法は標準ベンチマークよりも改善され、きめ細かい制御も可能である。
論文 参考訳(メタデータ) (2020-05-10T03:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。