Fugu-MT 論文翻訳(概要): Code Soliloquies for Accurate Calculations in Large Language Models

論文の概要: Code Soliloquies for Accurate Calculations in Large Language Models

arxiv url: http://arxiv.org/abs/2309.12161v1
Date: Thu, 21 Sep 2023 15:16:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 14:37:13.525763
Title: Code Soliloquies for Accurate Calculations in Large Language Models
Title（参考訳）: 大規模言語モデルにおける精度計算のためのコードソリロキー
Authors: Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu Mallick, Richard G. Baraniuk
Abstract要約: インテリジェント・チューリング・システム(ITS)の成功に欠かせない高品質な会話データセットこれらのデータセットを開発するための一般的な戦略は、高度なGPT-4モデルを用いて合成学生と教師の対話を生成することである。本稿では,学生と教師とのモック会話を生成する,革新的なステートフルなプロンプトデザインを提案する。
参考スコア（独自算出の注目度）: 22.1024285108075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-quality conversational datasets are integral to the successful development of Intelligent Tutoring Systems (ITS) that employ a Large Language Model (LLM) backend. These datasets, when used to fine-tune the LLM backend, significantly enhance the quality of interactions between students and ITS. A common strategy for developing these datasets involves generating synthetic student-teacher dialogues using advanced GPT-4 models. However, challenges arise when these dialogues demand complex calculations, common in subjects like physics. Despite its advanced capabilities, GPT-4's performance falls short in reliably handling even simple multiplication tasks, marking a significant limitation in its utility for these subjects. To address these challenges, this paper introduces an innovative stateful prompt design. Our approach generates a mock conversation between a student and a tutorbot, both roles simulated by GPT-4. Each student response triggers a soliloquy (an inner monologue) in the GPT-tutorbot, which assesses whether its response would necessitate calculations. If so, it proceeds to script the required code in Python and then uses the resulting output to construct its response to the student. Our approach notably enhances the quality of synthetic conversation datasets, especially for subjects that are calculation-intensive. Our findings show that our Higgs model -- a LLaMA finetuned with datasets generated through our novel stateful prompt design -- proficiently utilizes Python for computations. Consequently, finetuning with our datasets enriched with code soliloquies enhances not just the accuracy but also the computational reliability of Higgs' responses.
Abstract（参考訳）: 高品質な会話データセットは、Large Language Model (LLM)バックエンドを使用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。これらのデータセットは、LLMバックエンドを微調整するために使用され、学生とITS間の相互作用の質を大幅に向上させる。これらのデータセットを開発するための一般的な戦略は、高度なGPT-4モデルを用いて合成学生と教師の対話を生成することである。しかし、これらの対話が複雑な計算を必要とすると問題が発生する。高度な能力にもかかわらず、gpt-4の性能は単純な乗算タスクでも確実に処理できないため、これらの課題の実用性に重大な制限がある。これらの課題に対処するために,革新的なステートフルなプロンプト設計を提案する。提案手法は,GPT-4でシミュレートされた学生と教師とのモックな会話を生成する。各学生の反応はgpt-tutorbotのsoliloquy(内的モノローグ)をトリガーし、その応答が計算を必要とするかどうかを評価する。もしそうなら、必要なコードをpythonでスクリプトし、その結果の出力を使って学生へのレスポンスを構築する。提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。その結果、私たちのhiggsモデルは、新しいステートフルなプロンプトデザインによって生成されたデータセットを微調整したラマであり、pythonを巧みに計算に利用しています。その結果,コードソリロキーに富んだデータセットの微調整により,Higs応答の精度だけでなく,計算信頼性も向上した。

関連論文リスト

Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [6.349503549199403]
本研究では,半導体材料のバンドギャップを予測するためのエンコーダとしてのトランスフォーマーベース言語モデルについて検討する。そこで我々は,ChatGPT APIを用いて生成した特徴と自然言語テキストを組み合わせた形式付き文字列の2つの形式で資料記述を生成する。自然言語処理タスクに基づいて事前訓練されたRoBERTaモデルは,予測タスクのエンコーダとして効果的に動作することを示す。
論文参考訳（メタデータ） (2025-01-07T00:56:26Z)
Molly: Making Large Language Model Agents Solve Python Problem More Logically [11.317420065020173]
モリーエージェントは、シナリオベースのインタラクションを通じて学習者の質問意図を解析する。生成段階では、エージェントは生成されたレスポンスを反映して、実際のコンテンツと整合するだけでなく、ユーザのクエリに効果的に答えるようにします。
論文参考訳（メタデータ） (2024-12-24T02:08:38Z)
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs [34.498175178707065]
本稿では,新しい大規模かつ多様なMath Informed syNthetic Dialogue(MIND)生成法を提案する。 MIND は OpenWebMath (OWM) に基づいて合成会話を生成し,新しい数学コーパス MIND-OWM を生成する。会話設定の異なる実験により,対話参加者間の知識ギャップを組み込むことが,高品質な数学データの生成に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-10-15T18:25:53Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文参考訳（メタデータ） (2024-05-03T14:29:54Z)
Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文参考訳（メタデータ） (2024-02-16T22:24:13Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
Pair Programming with Large Language Models for Sampling and Estimation of Copulas [0.0]
モンテカルロシミュレーションに基づくコプラによる依存モデリングの例は、最先端の大規模言語モデル(LLM)を用いて開発されている。この中には、自然言語でのChatGPTとのインタラクションや数学的形式の使用が含まれており、PythonとRで動作するコードの生成につながっている。注意深い急進的なエンジニアリングを通じて、ChatGPTが生成した成功解と失敗解を分離し、その結果、関連する長所と短所の包括的リストを得る。
論文参考訳（メタデータ） (2023-03-31T15:02:48Z)
Logical Reasoning for Task Oriented Dialogue Systems [57.440956636333325]
本稿では,ロバータやT5などの変圧器モデルに対して,与えられた対話コンテキストにおける事実の集合を推論する新しい手法を提案する。本手法は,モデルが論理関係を学習するのに役立つ合成データ生成機構を含む。対話コンテキストが全ての必要な情報を含む場合、変換器に基づくモデルが論理的推論を行い、質問に答えることを示す。
論文参考訳（メタデータ） (2022-02-08T21:46:27Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文参考訳（メタデータ） (2021-10-15T14:36:45Z)
Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文参考訳（メタデータ） (2020-08-14T08:23:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。