Fugu-MT 論文翻訳(概要): Calibrating Long-form Generations from Large Language Models

論文の概要: Calibrating Long-form Generations from Large Language Models

arxiv url: http://arxiv.org/abs/2402.06544v1
Date: Fri, 9 Feb 2024 17:00:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 16:01:25.844848
Title: Calibrating Long-form Generations from Large Language Models
Title（参考訳）: 大規模言語モデルからの校正長文生成
Authors: Yukun Huang, Yixin Liu, Raghuveer Thirukovalluru, Arman Cohan, Bhuwan Dhingra
Abstract要約: 大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
参考スコア（独自算出の注目度）: 37.2496541665881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To enhance Large Language Models' (LLMs) reliability, calibration is essential -- the model's assessed confidence scores should align with the actual likelihood of its responses being correct. However, current confidence elicitation methods and calibration metrics typically rely on a binary true/false assessment of response correctness. This approach does not apply to long-form generation, where an answer can be partially correct. Addressing this gap, we introduce a unified calibration framework, in which both the correctness of the LLMs' responses and their associated confidence levels are treated as distributions across a range of scores. Within this framework, we develop three metrics to precisely evaluate LLM calibration and further propose two confidence elicitation methods based on self-consistency and self-evaluation. Our experiments, which include long-form QA and summarization tasks, demonstrate that larger models don't necessarily guarantee better calibration, that calibration performance is found to be metric-dependent, and that self-consistency methods excel in factoid datasets. We also find that calibration can be enhanced through techniques such as fine-tuning, integrating relevant source documents, scaling the temperature, and combining self-consistency with self-evaluation. Lastly, we showcase a practical application of our system: selecting and cascading open-source models and ChatGPT to optimize correctness given a limited API budget. This research not only challenges existing notions of LLM calibration but also offers practical methodologies for improving trustworthiness in long-form generation.
Abstract（参考訳）: 大規模言語モデル(LLM)の信頼性を高めるためには、キャリブレーションが不可欠である。しかし、現在の信頼性評価手法とキャリブレーション基準は、通常、応答の正しさのバイナリ真/偽評価に依存している。このアプローチは、答えが部分的に正しいようなロングフォーム生成には適用されない。このギャップに対処するために,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを導入する。本研究では,LCM校正を正確に評価する3つの指標を開発し,自己整合性と自己評価に基づく2つの信頼性評価手法を提案する。長期QAと要約タスクを含む我々の実験は、大きめのモデルが必ずしもキャリブレーションの向上を保証していないこと、キャリブレーション性能がメートル法に依存していること、そして自己整合性手法がファクトイドデータセットより優れていることを実証している。また,微調整,関連資料の統合,温度のスケーリング,自己整合性と自己評価の併用といった手法によって校正を向上できることがわかった。最後に,このシステムの実用的応用について紹介する。api予算が限られているため,オープンソースモデルとchatgptを選択して,正確性を最適化する。本研究は, LLMキャリブレーションの概念に挑戦するだけでなく, 長期化における信頼性向上のための実践的方法論を提供する。

関連論文リスト

SGIC: A Self-Guided Iterative Calibration Framework for RAG [45.17496149653415]
大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。ツールとして不確実性スコアを用いる新しいフレームワークを提案する。また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
論文参考訳（メタデータ） (2025-06-19T09:45:13Z)
Know What You Don't Know: Uncertainty Calibration of Process Reward Models [8.958124143194512]
最先端のPRMでさえ、キャリブレーションが不十分であり、しばしば成功確率を過大評価することができる。我々は、PRM出力が真の成功確率によく適合するように、量子レグレッションによって行われるキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2025-06-11T02:39:26Z)
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文参考訳（メタデータ） (2025-04-30T19:19:21Z)
Balancing Two Classifiers via A Simplex ETF Structure for Model Calibration [34.52946891778497]
ディープニューラルネットワーク(DNN)は、さまざまな領域にわたる最先端のパフォーマンスを実証している。彼らはしばしばキャリブレーションの問題に直面するが、特に自動運転やヘルスケアといった安全上重要な応用においてである。近年,分類器の観点からモデルキャリブレーションの改善が試みられている。
論文参考訳（メタデータ） (2025-04-14T09:09:01Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Consistency Calibration: Improving Uncertainty Calibration via Consistency among Perturbed Neighbors [22.39558434131574]
モデルキャリブレーションの代替視点として一貫性の概念を導入する。本稿では,入力間の一貫性に基づいて信頼度を調整する,一貫性(CC)と呼ばれるポストホックキャリブレーション手法を提案する。また,ロジットレベルでの摂動は計算効率を著しく向上させることを示した。
論文参考訳（メタデータ） (2024-10-16T06:55:02Z)
Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文参考訳（メタデータ） (2024-08-31T05:12:36Z)
Self-Consistency Boosts Calibration for Math Reasoning [69.82896431282927]
数学推論タスクの自己整合性に基づく3つのオフ・ザ・シェルフ校正手法を設計する。 p(True) や logit に基づく既存手法よりもモデルの信頼性と精度を橋渡しする。
論文参考訳（メタデータ） (2024-03-14T20:17:10Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文参考訳（メタデータ） (2023-11-22T08:57:55Z)
Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。 OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-03T05:41:25Z)
Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文参考訳（メタデータ） (2022-06-23T03:25:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。