Fugu-MT 論文翻訳(概要): The Effect of Sampling Temperature on Problem Solving in Large Language Models

論文の概要: The Effect of Sampling Temperature on Problem Solving in Large Language Models

arxiv url: http://arxiv.org/abs/2402.05201v2
Date: Fri, 14 Jun 2024 18:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 06:25:35.778348
Title: The Effect of Sampling Temperature on Problem Solving in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるサンプリング温度が問題解決に及ぼす影響
Authors: Matthew Renze, Erhan Guven,
Abstract要約: 本研究では,サンプル温度が大規模言語モデル(LLM)の性能に及ぼす影響について検討する。その結果, 0.0～1.0の温度変化は, LLMの性能に統計的に有意な影響を与えないことが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this research study, we empirically investigate the effect of sampling temperature on the performance of Large Language Models (LLMs) on various problem-solving tasks. We created a multiple-choice question-and-answer (MCQA) exam by randomly sampling problems from standard LLM benchmarks. Then, we used nine popular LLMs with five prompt-engineering techniques to solve the MCQA problems while increasing the sampling temperature from 0.0 to 1.6. Despite anecdotal reports to the contrary, our empirical results indicate that changes in temperature from 0.0 to 1.0 do not have a statistically significant impact on LLM performance for problem-solving tasks. In addition, these results appear to generalize across LLMs, prompt-engineering techniques, and problem domains. All code, data, and supplemental materials are available on GitHub at: https://github.com/matthewrenze/jhu-llm-temperature
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)の性能に及ぼすサンプリング温度の影響を実験的に検討した。我々は,標準LLMベンチマークからランダムに問題をサンプリングし,MCQA(Multi-choice Question-and-Awer)試験を作成した。次に,9つの一般的なLCMと5つのプロンプトエンジニアリング技術を用いて,サンプリング温度を0.0から1.6に高めながらMCQA問題を解く。その結果, 0.0から1.0の温度変化は, LLMの性能に統計的に有意な影響を及ぼさないことが明らかとなった。さらに、これらの結果はLSM、プロンプトエンジニアリング技術、問題領域にまたがって一般化しているように見える。コード、データ、補足材料はすべてGitHubで入手できる。

関連論文リスト

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文参考訳（メタデータ） (2025-06-03T18:35:52Z)
Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文参考訳（メタデータ） (2025-02-07T19:35:25Z)
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering [1.0874597293913013]
MCQA(Multiple Choice Question Answering)は、医学、法学、教育など、多くの現実世界の応用において重要な問題である。本稿では,データ生成とスコアリングに大規模言語モデルを用いる,シンプルで効果的な手法を提案する。提案手法では, 精度が28.9%から39.3%に向上し, 5ショットで直接微調整したベースラインに比べて10%以上向上した。
論文参考訳（メタデータ） (2024-12-13T02:48:36Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Optimizing Large Language Model Hyperparameters for Code Generation [12.736206901779502]
大規模言語モデル(LLM)は、ソフトウェア工学において、様々なタスクを自動化するためにますます使われている。本研究では,様々なハイパーパラメータの影響を徹底的に検討し,LLMのコード生成性能を評価することを目的とする。
論文参考訳（メタデータ） (2024-08-20T06:32:57Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Evaluating LLMs with Multiple Problems at once [9.173325772800341]
本稿では,複数の問題を同時に抱えたLLMの評価のメリットと実効性を示す。我々はZeMPE(Zero-shot Multi-Problem Evaluation)と呼ばれる新しいベンチマークを導入する。以上の結果から,LCMは単一データソースから複数の問題を処理できるだけでなく,個別に処理できるが,複数の問題処理能力に乏しい条件が存在することがわかった。
論文参考訳（メタデータ） (2024-06-16T02:52:32Z)
Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文参考訳（メタデータ） (2024-05-30T18:07:13Z)
MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。 GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文参考訳（メタデータ） (2024-04-11T07:11:47Z)
EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling [31.663507929452564]
生成品質と多様性のバランスをとるために,効率的なエントロピーに基づく動的温度サンプリング法を提案する。我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。
論文参考訳（メタデータ） (2024-03-21T16:41:12Z)
FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文参考訳（メタデータ） (2024-02-04T20:56:09Z)
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code [12.58098809948832]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文参考訳（メタデータ） (2023-12-22T17:29:08Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。