論文の概要: Code Soliloquies for Accurate Calculations in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12161v2
- Date: Tue, 31 Oct 2023 20:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:06:49.891189
- Title: Code Soliloquies for Accurate Calculations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける精度計算のためのコードソリロキー
- Authors: Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu
Mallick, Richard G. Baraniuk
- Abstract要約: 高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。
これらのデータセットは、高度なGPT-4モデルを用いて生成される。
本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
- 参考スコア(独自算出の注目度): 22.1024285108075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality conversational datasets are crucial for the successful
development of Intelligent Tutoring Systems (ITS) that utilize a Large Language
Model (LLM) backend. Synthetic student-teacher dialogues, generated using
advanced GPT-4 models, are a common strategy for creating these datasets.
However, subjects like physics that entail complex calculations pose a
challenge. While GPT-4 presents impressive language processing capabilities,
its limitations in fundamental mathematical reasoning curtail its efficacy for
such subjects. To tackle this limitation, we introduce in this paper an
innovative stateful prompt design. Our design orchestrates a mock conversation
where both student and tutorbot roles are simulated by GPT-4. Each student
response triggers an internal monologue, or `code soliloquy' in the
GPT-tutorbot, which assesses whether its subsequent response would necessitate
calculations. If a calculation is deemed necessary, it scripts the relevant
Python code and uses the Python output to construct a response to the student.
Our approach notably enhances the quality of synthetic conversation datasets,
especially for subjects that are calculation-intensive. Our preliminary Subject
Matter Expert evaluations reveal that our Higgs model, a fine-tuned LLaMA
model, effectively uses Python for computations, which significantly enhances
the accuracy and computational reliability of Higgs' responses. Code, models,
and datasets is available at https://github.com/luffycodes/Tutorbot-Spock-Phys.
- Abstract(参考訳): 高品質な会話データセットは、Large Language Model (LLM)バックエンドを利用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。
高度なgpt-4モデルを用いて生成された合成学生-教師対話は、これらのデータセットを作成する一般的な戦略である。
しかし、複雑な計算を伴う物理学のような主題は問題となる。
GPT-4は印象的な言語処理能力を示すが、基本的な数学的推論における制限は、そのような問題に対する有効性を制限している。
この制限に対処するため,本稿では,革新的なステートフルなプロンプト設計を提案する。
本設計では,GPT-4で学生と教師の役割をシミュレートした模擬会話を編成する。
生徒の反応は内部のモノローグ、つまりGPT-tutorbotの'code soliloquy'をトリガーし、その後の反応が計算を必要とするかどうかを評価する。
計算が必要な場合、関連するPythonコードをスクリプトし、Python出力を使用して学生への応答を構築する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
予備課題 課題 専門家による評価では, 微調整 LLaMA モデルであるヒッグスモデルは, 計算に Python を効果的に用いており, ヒッグス応答の精度と計算信頼性を大幅に向上させる。
コード、モデル、データセットはhttps://github.com/luffycodes/Tutorbot-Spock-Physで入手できる。
関連論文リスト
- MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。
MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。
会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-10-15T18:25:53Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Pair Programming with Large Language Models for Sampling and Estimation
of Copulas [0.0]
モンテカルロシミュレーションに基づくコプラによる依存モデリングの例は、最先端の大規模言語モデル(LLM)を用いて開発されている。
この中には、自然言語でのChatGPTとのインタラクションや数学的形式の使用が含まれており、PythonとRで動作するコードの生成につながっている。
注意深い急進的なエンジニアリングを通じて、ChatGPTが生成した成功解と失敗解を分離し、その結果、関連する長所と短所の包括的リストを得る。
論文 参考訳(メタデータ) (2023-03-31T15:02:48Z) - Logical Reasoning for Task Oriented Dialogue Systems [57.440956636333325]
本稿では,ロバータやT5などの変圧器モデルに対して,与えられた対話コンテキストにおける事実の集合を推論する新しい手法を提案する。
本手法は,モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。
対話コンテキストが全ての必要な情報を含む場合、変換器に基づくモデルが論理的推論を行い、質問に答えることを示す。
論文 参考訳(メタデータ) (2022-02-08T21:46:27Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。