論文の概要: Code Soliloquies for Accurate Calculations in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12161v1
- Date: Thu, 21 Sep 2023 15:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:37:13.525763
- Title: Code Soliloquies for Accurate Calculations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける精度計算のためのコードソリロキー
- Authors: Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu
Mallick, Richard G. Baraniuk
- Abstract要約: インテリジェント・チューリング・システム(ITS)の成功に欠かせない高品質な会話データセット
これらのデータセットを開発するための一般的な戦略は、高度なGPT-4モデルを用いて合成学生と教師の対話を生成することである。
本稿では,学生と教師とのモック会話を生成する,革新的なステートフルなプロンプトデザインを提案する。
- 参考スコア(独自算出の注目度): 22.1024285108075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality conversational datasets are integral to the successful
development of Intelligent Tutoring Systems (ITS) that employ a Large Language
Model (LLM) backend. These datasets, when used to fine-tune the LLM backend,
significantly enhance the quality of interactions between students and ITS. A
common strategy for developing these datasets involves generating synthetic
student-teacher dialogues using advanced GPT-4 models. However, challenges
arise when these dialogues demand complex calculations, common in subjects like
physics. Despite its advanced capabilities, GPT-4's performance falls short in
reliably handling even simple multiplication tasks, marking a significant
limitation in its utility for these subjects. To address these challenges, this
paper introduces an innovative stateful prompt design. Our approach generates a
mock conversation between a student and a tutorbot, both roles simulated by
GPT-4. Each student response triggers a soliloquy (an inner monologue) in the
GPT-tutorbot, which assesses whether its response would necessitate
calculations. If so, it proceeds to script the required code in Python and then
uses the resulting output to construct its response to the student. Our
approach notably enhances the quality of synthetic conversation datasets,
especially for subjects that are calculation-intensive. Our findings show that
our Higgs model -- a LLaMA finetuned with datasets generated through our novel
stateful prompt design -- proficiently utilizes Python for computations.
Consequently, finetuning with our datasets enriched with code soliloquies
enhances not just the accuracy but also the computational reliability of Higgs'
responses.
- Abstract(参考訳): 高品質な会話データセットは、Large Language Model (LLM)バックエンドを使用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。
これらのデータセットは、LLMバックエンドを微調整するために使用され、学生とITS間の相互作用の質を大幅に向上させる。
これらのデータセットを開発するための一般的な戦略は、高度なGPT-4モデルを用いて合成学生と教師の対話を生成することである。
しかし、これらの対話が複雑な計算を必要とすると問題が発生する。
高度な能力にもかかわらず、gpt-4の性能は単純な乗算タスクでも確実に処理できないため、これらの課題の実用性に重大な制限がある。
これらの課題に対処するために,革新的なステートフルなプロンプト設計を提案する。
提案手法は,GPT-4でシミュレートされた学生と教師とのモックな会話を生成する。
各学生の反応はgpt-tutorbotのsoliloquy(内的モノローグ)をトリガーし、その応答が計算を必要とするかどうかを評価する。
もしそうなら、必要なコードをpythonでスクリプトし、その結果の出力を使って学生へのレスポンスを構築する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
その結果、私たちのhiggsモデルは、新しいステートフルなプロンプトデザインによって生成されたデータセットを微調整したラマであり、pythonを巧みに計算に利用しています。
その結果,コードソリロキーに富んだデータセットの微調整により,Higs応答の精度だけでなく,計算信頼性も向上した。
関連論文リスト
- Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - Language Models as Science Tutors [80.5847894062664]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Pair Programming with Large Language Models for Sampling and Estimation
of Copulas [0.0]
モンテカルロシミュレーションに基づくコプラによる依存モデリングの例は、最先端の大規模言語モデル(LLM)を用いて開発されている。
この中には、自然言語でのChatGPTとのインタラクションや数学的形式の使用が含まれており、PythonとRで動作するコードの生成につながっている。
注意深い急進的なエンジニアリングを通じて、ChatGPTが生成した成功解と失敗解を分離し、その結果、関連する長所と短所の包括的リストを得る。
論文 参考訳(メタデータ) (2023-03-31T15:02:48Z) - Logical Reasoning for Task Oriented Dialogue Systems [57.440956636333325]
本稿では,ロバータやT5などの変圧器モデルに対して,与えられた対話コンテキストにおける事実の集合を推論する新しい手法を提案する。
本手法は,モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。
対話コンテキストが全ての必要な情報を含む場合、変換器に基づくモデルが論理的推論を行い、質問に答えることを示す。
論文 参考訳(メタデータ) (2022-02-08T21:46:27Z) - Automated Creation and Human-assisted Curation of Computable Scientific
Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。
我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。
本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-01-28T17:31:38Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。