論文の概要: The Necessity of Setting Temperature in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2603.28304v1
- Date: Mon, 30 Mar 2026 11:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.358889
- Title: The Necessity of Setting Temperature in LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeにおける設定温度の必要性
- Authors: Lujun Li, Lama Sleem, Yangjie Xu, Yewei Song, Aolin Jia, Jerome Francois, Radu State,
- Abstract要約: 一連の制御実験により, 温度と判定性能の関係について検討した。
また,我々の経験的統計分析に因果推論の枠組みを採用し,温度が判断行動に与える直接的な因果効果を厳密に検証した。
- 参考スコア(独自算出の注目度): 10.631912729138152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-as-a-Judge has emerged as an effective and low-cost paradigm for evaluating text quality and factual correctness. Prior studies have shown substantial agreement between LLM judges and human experts, even on tasks that are difficult to assess automatically. In practice, researchers commonly employ fixed temperature configurations during the evaluation process-with values of 0.1 and 1.0 being the most prevalent choices-a convention that is largely empirical rather than principled. However, recent researches suggest that LLM performance exhibits non-trivial sensitivity to temperature settings, that lower temperatures do not universally yield optimal outcomes, and that such effects are highly task-dependent. This raises a critical research question: does temperature influence judge performance in LLM centric evaluation? To address this, we systematically investigate the relationship between temperature and judge performance through a series of controlled experiments, and further adopt a causal inference framework within our empirical statistical analysis to rigorously examine the direct causal effect of temperature on judge behavior, offering actionable engineering insights for the design of LLM-centric evaluation pipelines.
- Abstract(参考訳): LLM-as-a-Judgeは、テキストの品質と事実の正しさを評価するための、効果的で低コストなパラダイムとして登場した。
これまでの研究では、LLMの審査員と人間の専門家の間で、自動評価が難しいタスクにおいても、かなりの合意が示されてきた。
実際には、研究者は一般的に、評価プロセス中に一定の温度設定を使用し、0.1と1.0の値は、原則よりも主に経験的な慣例である最も一般的な選択である。
しかし、近年の研究では、LLMの性能は温度設定に対する非自明な感度を示し、低い温度では最適結果が得られず、そのような効果はタスク依存であることが示唆されている。
このことは、LLM中心評価における温度影響判定性能について重要な研究課題を提起する。
そこで本研究では, 温度と判定性能の関係を, 一連の制御実験を通じて体系的に検討し, さらに, 温度が判断行動に与える直接的な因果的影響を厳密に検証するために, 因果推論の枠組みを適用し, LLM中心評価パイプラインの設計に実用的なエンジニアリングインサイトを提供する。
関連論文リスト
- Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training [75.98427023288052]
LLM(Reasoning LLMs-as-Judges)は、推論モデルの成功を検証不可能な領域に拡張するための有望な道を提供する。
本研究では、強化学習に基づくLLMアライメントにおける非推論および推論判断の実際の影響について検討した。
我々は,高い効率の対向出力を生成することを学ぶことによって,理性判断訓練された政策が,そのような高い性能を達成することを見出した。
論文 参考訳(メタデータ) (2026-03-12T17:57:06Z) - TempPerturb-Eval: On the Joint Effects of Internal Temperature and External Perturbations in RAG Robustness [3.796841688047966]
本研究は,複数のLLM動作におけるテキスト摂動と温度設定との相互作用について,系統的研究を行った。
本稿では,様々な温度設定の異なる3種類の摂動タイプに文書を検索する総合的なRAG摂動温度解析フレームワークを提案する。
本研究は,(1)RAGロバスト性評価のための診断ベンチマーク,(2)摂動-温度相互作用の定量化のための分析フレームワーク,(3)ノイズのある検索条件下でのモデル選択とパラメータチューニングの実践的ガイドラインの3つの重要な貢献をもたらす。
論文 参考訳(メタデータ) (2025-12-01T01:46:36Z) - Optimal Attention Temperature Enhances In-Context Learning under Distribution Shift [8.135786025034626]
本論文は,分布シフト中のICLの注意温度に関する最初の理論的,実証的研究である。
入力共分散やラベルノイズのシフトはICLを著しく損なうが、この誤差を最小限に抑える最適な注意温度が存在することを証明した。
本研究は,プリトレーニングトランスにおけるICLのロバスト性向上のための原理的かつ強力な機構として,注目温度を確立した。
論文 参考訳(メタデータ) (2025-11-03T07:18:27Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Exploring the Impact of Temperature Scaling in Softmax for Classification and Adversarial Robustness [8.934328206473456]
この研究は「温度」として知られるソフトマックス関数内でしばしば見過ごされるパラメータを掘り下げる。
畳み込みニューラルネットワークとトランスフォーマーを採用した我々の実証研究は、温暖化によって全体的なパフォーマンスが向上することを示した。
一般的な腐敗に対するモデルロバスト性の向上、自然摂動、そして投影されたグラディエント・ダイスンのような非標的の敵攻撃などです。
論文 参考訳(メタデータ) (2025-02-28T00:07:45Z) - An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Dynamically Scaled Temperature in Self-Supervised Contrastive Learning [11.133502139934437]
本稿では,コサインの類似性に依存した温度スケーリング機能を提案することで,自己教師型学習におけるInfoNCE損失の性能向上に着目する。
実験的な証拠は、提案フレームワークが損失ベースのSSLアルゴリズムよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-02T13:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。