Fugu-MT 論文翻訳(概要): Self-Consistency Boosts Calibration for Math Reasoning

論文の概要: Self-Consistency Boosts Calibration for Math Reasoning

arxiv url: http://arxiv.org/abs/2403.09849v1
Date: Thu, 14 Mar 2024 20:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 21:15:39.812025
Title: Self-Consistency Boosts Calibration for Math Reasoning
Title（参考訳）: 自己一貫性が数学推論の校正を後押し
Authors: Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Lifeng Jin, Haitao Mi, Jinsong Su, Dong Yu,
Abstract要約: 数学推論タスクの自己整合性に基づく3つのオフ・ザ・シェルフ校正手法を設計する。 p(True) や logit に基づく既存手法よりもモデルの信頼性と精度を橋渡しする。
参考スコア（独自算出の注目度）: 69.82896431282927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Calibration, which establishes the correlation between accuracy and model confidence, is important for LLM development. We design three off-the-shelf calibration methods based on self-consistency (Wang et al., 2022) for math reasoning tasks. Evaluation on two popular benchmarks (GSM8K and MathQA) using strong open-source LLMs (Mistral and LLaMA2), our methods better bridge model confidence and accuracy than existing methods based on p(True) (Kadavath et al., 2022) or logit (Kadavath et al., 2022).
Abstract（参考訳）: 精度とモデル信頼性の相関関係を確立するキャリブレーションは,LLM開発において重要である。我々は, 自己整合性(Wang et al , 2022)に基づく3つのオフ・ザ・シェルフ校正法を設計した。オープンソースの強力な LLM (Mistral と LLaMA2) を用いた2つの人気のあるベンチマーク (GSM8K と MathQA) の評価を行い, p(True) (Kadavath et al , 2022) や logit (Kadavath et al , 2022) に基づく既存手法よりもモデルの信頼性と精度を橋渡しした。

関連論文リスト

SGIC: A Self-Guided Iterative Calibration Framework for RAG [45.17496149653415]
大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。ツールとして不確実性スコアを用いる新しいフレームワークを提案する。また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
論文参考訳（メタデータ） (2025-06-19T09:45:13Z)
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文参考訳（メタデータ） (2025-04-30T19:19:21Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文参考訳（メタデータ） (2024-08-31T05:12:36Z)
Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation [18.815226646364476]
大規模言語モデル(LLM)の既存のキャリブレーション手法は、「集団知恵」を最大限に活用することなく、個人の信頼度を推定または引き出すことに重点を置いている。我々は,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborativeを提案する。
論文参考訳（メタデータ） (2024-04-14T02:40:43Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-09T17:00:32Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。 ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文参考訳（メタデータ） (2023-05-24T06:55:09Z)
A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。トレーニングにおけるPLMの校正性能の動的変化について検討する。最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文参考訳（メタデータ） (2022-10-31T21:31:07Z)
Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文参考訳（メタデータ） (2022-06-23T03:25:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。