論文の概要: Adaptive Rigor in AI System Evaluation using Temperature-Controlled Verdict Aggregation via Generalized Power Mean
- arxiv url: http://arxiv.org/abs/2604.08595v1
- Date: Sat, 04 Apr 2026 09:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.466557
- Title: Adaptive Rigor in AI System Evaluation using Temperature-Controlled Verdict Aggregation via Generalized Power Mean
- Title(参考訳): 一般化パワー平均による温度制御型予測集約を用いたAIシステム評価における適応リゴール
- Authors: Aleksandr Meshkov,
- Abstract要約: 本稿では,5段階判定システムと一般化されたパワー平均アグリゲーションと直感的な温度パラメータT[0.1, 1.0]を組み合わせて評価リガーを制御する手法を提案する。
低温は安全クリティカルな領域に適した悲観的なスコアをもたらし、高温は会話AIに適した寛大なスコアを生み出します。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing evaluation methods for LLM-based AI systems, such as LLM-as-a-Judge, verdict systems, and NLI, do not always align well with human assessment because they cannot adapt their strictness to the application domain. This paper presents Temperature-Controlled Verdict Aggregation (TCVA), a method that combines a five-level verdict-scoring system with generalized power-mean aggregation and an intuitive temperature parameter T [0.1, 1.0] to control evaluation rigor. Low temperatures yield pessimistic scores suited for safety-critical domains; high temperatures produce lenient scores appropriate for conversational AI. Experimental evaluation on three benchmark datasets with human Likert-scale annotations (SummEval and USR) shows that TCVA achieves correlation with human judgments comparable to RAGAS on faithfulness (Spearman = 0.667 vs. 0.676) while consistently outperforming DeepEval. The method requires no additional LLM calls when adjusting the temperature parameter.
- Abstract(参考訳): LLM-as-a-Judgeや検証システム、NLIといった既存のLLMベースのAIシステムの評価手法は、アプリケーションドメインに厳密さを適応できないため、必ずしも人間の評価と一致しない。
本稿では,5段階の定式化システムと汎用パワー平均集約と,温度パラメータT[0.1, 1.0]を組み合わせ,評価リガーを制御する方法として,温度制御型定式化(TCVA)を提案する。
低温は安全クリティカルな領域に適した悲観的なスコアをもたらし、高温は会話AIに適した寛大なスコアを生み出します。
人間のLikert-scaleアノテーション(SummEvalとUSR)を用いた3つのベンチマークデータセットの実験的評価により、TCVAは、忠実度(Spearman = 0.667 vs. 0.676)においてRAGASに匹敵する人間の判断と相関し、DeepEvalを一貫して上回っている。
この方法は、温度パラメータを調整する際に、追加のLLMコールを必要としない。
関連論文リスト
- The Necessity of Setting Temperature in LLM-as-a-Judge [10.631912729138152]
一連の制御実験により, 温度と判定性能の関係について検討した。
また,我々の経験的統計分析に因果推論の枠組みを採用し,温度が判断行動に与える直接的な因果効果を厳密に検証した。
論文 参考訳(メタデータ) (2026-03-30T11:31:29Z) - Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL [30.357975264905978]
生成時のサンプリング温度の制御を学習する階層的強化学習フレームワークを提案する。
各復号ステップでは、モデルがその隠れた状態に基づいて温度を選択し、その結果の分布から次のトークンをサンプリングする。
温度とトークンのポリシーは、座標上昇スキームを用いて下流の報酬から共同で最適化される。
論文 参考訳(メタデータ) (2026-02-13T15:42:59Z) - Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning [47.83947232413507]
大規模言語モデル(LLM)における探索と搾取のトレードオフの温度制御
高温は多様だがノイズの多い出力を奨励し、低温は集中した出力を生み出すが、早めの収束を引き起こす可能性がある。
本稿では,温度制御を学習可能なメタ政治として再放送する新しいフレームワークである温度適応メタポリシー最適化(TAMPO)を提案する。
論文 参考訳(メタデータ) (2026-02-12T09:59:58Z) - TempPerturb-Eval: On the Joint Effects of Internal Temperature and External Perturbations in RAG Robustness [3.796841688047966]
本研究は,複数のLLM動作におけるテキスト摂動と温度設定との相互作用について,系統的研究を行った。
本稿では,様々な温度設定の異なる3種類の摂動タイプに文書を検索する総合的なRAG摂動温度解析フレームワークを提案する。
本研究は,(1)RAGロバスト性評価のための診断ベンチマーク,(2)摂動-温度相互作用の定量化のための分析フレームワーク,(3)ノイズのある検索条件下でのモデル選択とパラメータチューニングの実践的ガイドラインの3つの重要な貢献をもたらす。
論文 参考訳(メタデータ) (2025-12-01T01:46:36Z) - Silencer: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator [19.673388630963807]
この研究は、自己生成ベンチマークで評価されたモデルにおいて、膨張性能の現象を体系的に定義し、検証する。
我々は、サンプルレベルとベンチマークレベルの両方で複数のジェネレータ間の不均一性を利用してバイアスを中和し、高品質な自己バイアスサイレンスベンチマークを生成するフレームワークであるSilencerを提案する。
様々な設定における実験結果から、Silencerは自己バイアスをほぼゼロに抑えることができ、生成したベンチマークの有効性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-27T05:28:45Z) - HypoEval: Hypothesis-Guided Evaluation for Natural Language Generation [25.193026443079987]
hypoEvalは、大規模言語モデル(LLM)のための仮説誘導評価フレームワークである
人間の評価は30点に過ぎず,HypoEvalはヒトのランク(スピアマンの相関)とヒトのスコア(ピアソンの相関)の両方に対応して最先端のパフォーマンスを達成する。
我々は、HypoEvalの堅牢性を評価するための系統的研究を行い、信頼性と解釈可能な自動評価フレームワークとしての有効性を強調した。
論文 参考訳(メタデータ) (2025-04-09T18:00:01Z) - Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。