Fugu-MT 論文翻訳(概要): The Effect of Sampling Temperature on Problem Solving in Large Language Models

論文の概要: The Effect of Sampling Temperature on Problem Solving in Large Language Models

arxiv url: http://arxiv.org/abs/2402.05201v1
Date: Wed, 7 Feb 2024 19:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:32:44.025641
Title: The Effect of Sampling Temperature on Problem Solving in Large Language Models
Title（参考訳）: 大規模言語モデルの問題解決におけるサンプリング温度の影響
Authors: Matthew Renze and Erhan Guven
Abstract要約: 本研究では,サンプル温度が大規模言語モデル(LLM)の性能に及ぼす影響について検討する。その結果, 0.0～1.0の範囲における温度変化は, LLMの性能に統計的に有意な影響を及ぼさないことが明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this research study, we empirically investigate the effect of sampling temperature on the performance of Large Language Models (LLMs) on various problem-solving tasks. We created a multiple-choice question-and-answer (MCQA) exam by randomly sampling problems from standard LLM benchmarks. Then, we used four popular LLMs with five prompt-engineering techniques to solve the MCQA problems while increasing the sampling temperature from 0.0 to 1.0. Despite anecdotal reports to the contrary, our empirical results indicate that changes in temperature in the range 0.0 to 1.0 do not have a statistically significant impact on LLM performance for problem-solving tasks. In addition, these results appear to hold regardless of the LLM, the prompt-engineering technique, or the problem domain. All code, data, and supplemental materials are available on GitHub at: https://github.com/matthewrenze/jhu-llm-temperature.
Abstract（参考訳）: 本研究では,様々な課題に対する大規模言語モデル(llm)の性能に及ぼすサンプリング温度の影響を実証的に検討する。我々は,標準LLMベンチマークからランダムに問題をサンプリングし,MCQA(Multi-choice Question-and-Awer)試験を作成した。次に,5つのプロンプトエンジニアリング技術を用いた4つの一般的なLCMを用いて,サンプリング温度を0.0から1.0に高めながらMCQA問題を解く。その結果,0.0～1.0の範囲の温度変化は,問題解決タスクのllm性能に統計的に有意な影響を及ぼさないことがわかった。さらに, これらの結果は, LLM, プロンプトエンジニアリング技術, 問題領域によらず有効であると考えられる。 GitHubでは、すべてのコード、データ、補足資料が、https://github.com/matthewrenze/jhu-llm-temperature.comで公開されている。

関連論文リスト

Temperature in SLMs: Impact on Incident Categorization in On-Premises Environments [0.0]
ローカルに実行されたSLMがこの課題に対処できるかどうかを検討する。その結果、温度は性能にはほとんど影響を与えず、パラメータの数とGPU容量は決定的な要因であることがわかった。
論文参考訳（メタデータ） (2025-11-21T19:37:09Z)
On the Role of Temperature Sampling in Test-Time Scaling [5.758728541863352]
大規模なKでは、さらなるスケーリングは利得を得られず、トレースの数に関係なく、ある種の難しい質問は未解決のままである。 Qwen3と5つの代表的な推論ベンチマークで評価された温度スケーリングは、単一温度のTSよりも7.3ポイント高い。温度スケーリングはまた、ベースモデルが強化学習(RL)でトレーニングされたモデルに匹敵するパフォーマンスに到達することを可能にする。
論文参考訳（メタデータ） (2025-10-02T23:09:56Z)
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文参考訳（メタデータ） (2025-06-03T18:35:52Z)
Self-ensemble: Mitigating Confidence Mis-calibration for Large Language Models [67.62810111789338]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文参考訳（メタデータ） (2025-06-02T17:59:29Z)
Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文参考訳（メタデータ） (2025-02-07T19:35:25Z)
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering [1.0874597293913013]
MCQA(Multiple Choice Question Answering)は、医学、法学、教育など、多くの現実世界の応用において重要な問題である。本稿では,データ生成とスコアリングに大規模言語モデルを用いる,シンプルで効果的な手法を提案する。提案手法では, 精度が28.9%から39.3%に向上し, 5ショットで直接微調整したベースラインに比べて10%以上向上した。
論文参考訳（メタデータ） (2024-12-13T02:48:36Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Optimizing Large Language Model Hyperparameters for Code Generation [12.736206901779502]
大規模言語モデル(LLM)は、ソフトウェア工学において、様々なタスクを自動化するためにますます使われている。本研究では,様々なハイパーパラメータの影響を徹底的に検討し,LLMのコード生成性能を評価することを目的とする。
論文参考訳（メタデータ） (2024-08-20T06:32:57Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Evaluating LLMs with Multiple Problems at once [9.173325772800341]
本稿では,複数の問題を同時に抱えたLLMの評価のメリットと実効性を示す。我々はZeMPE(Zero-shot Multi-Problem Evaluation)と呼ばれる新しいベンチマークを導入する。以上の結果から,LCMは単一データソースから複数の問題を処理できるだけでなく,個別に処理できるが,複数の問題処理能力に乏しい条件が存在することがわかった。
論文参考訳（メタデータ） (2024-06-16T02:52:32Z)
Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文参考訳（メタデータ） (2024-05-30T18:07:13Z)
MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。 GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文参考訳（メタデータ） (2024-04-11T07:11:47Z)
EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling [31.663507929452564]
生成品質と多様性のバランスをとるために,効率的なエントロピーに基づく動的温度サンプリング法を提案する。我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。
論文参考訳（メタデータ） (2024-03-21T16:41:12Z)
FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文参考訳（メタデータ） (2024-02-04T20:56:09Z)
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code [12.58098809948832]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文参考訳（メタデータ） (2023-12-22T17:29:08Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。