論文の概要: Improving Socratic Question Generation using Data Augmentation and Preference Optimization
- arxiv url: http://arxiv.org/abs/2403.00199v3
- Date: Fri, 19 Apr 2024 02:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 12:21:28.310500
- Title: Improving Socratic Question Generation using Data Augmentation and Preference Optimization
- Title(参考訳): データ拡張と優先最適化によるソクラテス質問生成の改善
- Authors: Nischal Ashok Kumar, Andrew Lan,
- Abstract要約: 大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
これらの LLM をプロンプトする既存の手法は、時に無効な出力を生成する。
本研究では,既存のソクラテス質問データセットを,特定の方法で無効な質問で強化するデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Socratic method is a way of guiding students toward solving a problem independently without directly revealing the solution to the problem. Although this method has been shown to significantly improve student learning outcomes, it remains a complex labor-intensive task for instructors. Large language models (LLMs) can be used to augment human effort by automatically generating Socratic questions for students. However, existing methods that involve prompting these LLMs sometimes produce invalid outputs, e.g., those that directly reveal the solution to the problem or provide irrelevant or premature questions. To alleviate this problem, inspired by reinforcement learning with AI feedback (RLAIF), we first propose a data augmentation method to enrich existing Socratic questioning datasets with questions that are invalid in specific ways. Next, we propose a method to optimize open-source LLMs such as LLama 2 to prefer ground-truth questions over generated invalid ones, using direct preference optimization (DPO). Our experiments on a Socratic questions dataset for student code debugging show that a DPO-optimized 7B LLama 2 model can effectively avoid generating invalid questions, and as a result, outperforms existing state-of-the-art prompting methods.
- Abstract(参考訳): ソクラテス法(ソクラテスほう、英: Socratic method)とは、生徒が問題を解き明かすことなく、個別に解決するための指導方法である。
この方法は、学生の学習成果を著しく改善することが示されているが、インストラクターにとって複雑な労働集約的な課題である。
大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
しかしながら、これらのLSMの推進に関わる既存の手法は、しばしば不正なアウトプット(例えば、問題の解を直接明らかにしたり、無関係で未熟な質問を与えるもの)を生成することがある。
この問題を緩和するために、AIフィードバックによる強化学習(RLAIF)にインスパイアされ、我々はまず、特定の方法で無効な質問を伴う既存のソクラテス質問データセットを強化するためのデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
学生コードデバッグのためのソクラティック質問データセットの実験では、DPO最適化 7B LLama 2 モデルでは、不正な質問の発生を効果的に回避でき、その結果、既存の最先端のプロンプト手法よりも優れていることが示された。
関連論文リスト
- Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis [60.23133327001978]
大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Gotcha! Don't trick me with unanswerable questions! Self-aligning Large
Language Models for Responding to Unknown Questions [75.78536317322616]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [75.11811592995176]
本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。
V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Can Language Models Employ the Socratic Method? Experiments with Code
Debugging [1.2776694801834354]
本稿では,初心者プログラマが簡単な計算問題に対してバグ修正を行うのを支援するためのマルチターンソクラティックアドバイスのデータセットを紹介する。
このデータセットは、命令ベースのテキスト・トゥ・テキスト・トランスフォーマー-T5の微調整からゼロショット、さらに大きなGPT-4の思考の連鎖まで、多くの言語モデルのソクラティックデバッグ能力のベンチマークに使用される。
論文 参考訳(メタデータ) (2023-10-04T23:32:33Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。