論文の概要: Code Soliloquies for Accurate Calculations in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12161v2
- Date: Tue, 31 Oct 2023 20:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:06:49.891189
- Title: Code Soliloquies for Accurate Calculations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける精度計算のためのコードソリロキー
- Authors: Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu
Mallick, Richard G. Baraniuk
- Abstract要約: 高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。
これらのデータセットは、高度なGPT-4モデルを用いて生成される。
本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
- 参考スコア(独自算出の注目度): 22.1024285108075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality conversational datasets are crucial for the successful
development of Intelligent Tutoring Systems (ITS) that utilize a Large Language
Model (LLM) backend. Synthetic student-teacher dialogues, generated using
advanced GPT-4 models, are a common strategy for creating these datasets.
However, subjects like physics that entail complex calculations pose a
challenge. While GPT-4 presents impressive language processing capabilities,
its limitations in fundamental mathematical reasoning curtail its efficacy for
such subjects. To tackle this limitation, we introduce in this paper an
innovative stateful prompt design. Our design orchestrates a mock conversation
where both student and tutorbot roles are simulated by GPT-4. Each student
response triggers an internal monologue, or `code soliloquy' in the
GPT-tutorbot, which assesses whether its subsequent response would necessitate
calculations. If a calculation is deemed necessary, it scripts the relevant
Python code and uses the Python output to construct a response to the student.
Our approach notably enhances the quality of synthetic conversation datasets,
especially for subjects that are calculation-intensive. Our preliminary Subject
Matter Expert evaluations reveal that our Higgs model, a fine-tuned LLaMA
model, effectively uses Python for computations, which significantly enhances
the accuracy and computational reliability of Higgs' responses. Code, models,
and datasets is available at https://github.com/luffycodes/Tutorbot-Spock-Phys.
- Abstract(参考訳): 高品質な会話データセットは、Large Language Model (LLM)バックエンドを利用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。
高度なgpt-4モデルを用いて生成された合成学生-教師対話は、これらのデータセットを作成する一般的な戦略である。
しかし、複雑な計算を伴う物理学のような主題は問題となる。
GPT-4は印象的な言語処理能力を示すが、基本的な数学的推論における制限は、そのような問題に対する有効性を制限している。
この制限に対処するため,本稿では,革新的なステートフルなプロンプト設計を提案する。
本設計では,GPT-4で学生と教師の役割をシミュレートした模擬会話を編成する。
生徒の反応は内部のモノローグ、つまりGPT-tutorbotの'code soliloquy'をトリガーし、その後の反応が計算を必要とするかどうかを評価する。
計算が必要な場合、関連するPythonコードをスクリプトし、Python出力を使用して学生への応答を構築する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
予備課題 課題 専門家による評価では, 微調整 LLaMA モデルであるヒッグスモデルは, 計算に Python を効果的に用いており, ヒッグス応答の精度と計算信頼性を大幅に向上させる。
コード、モデル、データセットはhttps://github.com/luffycodes/Tutorbot-Spock-Physで入手できる。
関連論文リスト
- Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [6.349503549199403]
本研究では,半導体材料のバンドギャップを予測するためのエンコーダとしてのトランスフォーマーベース言語モデルについて検討する。
そこで我々は,ChatGPT APIを用いて生成した特徴と自然言語テキストを組み合わせた形式付き文字列の2つの形式で資料記述を生成する。
自然言語処理タスクに基づいて事前訓練されたRoBERTaモデルは,予測タスクのエンコーダとして効果的に動作することを示す。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - Molly: Making Large Language Model Agents Solve Python Problem More Logically [11.317420065020173]
モリーエージェントは、シナリオベースのインタラクションを通じて学習者の質問意図を解析する。
生成段階では、エージェントは生成されたレスポンスを反映して、実際のコンテンツと整合するだけでなく、ユーザのクエリに効果的に答えるようにします。
論文 参考訳(メタデータ) (2024-12-24T02:08:38Z) - MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。
MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。
会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-10-15T18:25:53Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。
コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Logical Reasoning for Task Oriented Dialogue Systems [57.440956636333325]
本稿では,ロバータやT5などの変圧器モデルに対して,与えられた対話コンテキストにおける事実の集合を推論する新しい手法を提案する。
本手法は,モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。
対話コンテキストが全ての必要な情報を含む場合、変換器に基づくモデルが論理的推論を行い、質問に答えることを示す。
論文 参考訳(メタデータ) (2022-02-08T21:46:27Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。