Fugu-MT 論文翻訳(概要): Self-ensemble: Mitigating Confidence Distortion for Large Language Models

論文の概要: Self-ensemble: Mitigating Confidence Distortion for Large Language Models

arxiv url: http://arxiv.org/abs/2506.01951v1
Date: Mon, 02 Jun 2025 17:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.775507
Title: Self-ensemble: Mitigating Confidence Distortion for Large Language Models
Title（参考訳）: 自己アンサンブル:大規模言語モデルに対する信頼のゆがみの軽減
Authors: Zicheng Xu, Guanchu Wang, Guangyao Zheng, Yu-Neng Chuang, Alexander Szalay, Xia Hu, Vladimir Braverman,
Abstract要約: 大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
参考スコア（独自算出の注目度）: 89.03110940871765
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Large Language Models (LLMs) perform well in general fields, they exhibit a confidence distortion problem on multi-choice question-answering (MCQA), particularly as the number of answer choices increases. Specifically, on MCQA with many choices, LLMs suffer from under-confidence in correct predictions and over-confidence in incorrect ones, leading to a substantially degraded performance. To solve this problem, we propose Self-ensemble in this work. Our method splits the choices into several groups and ensembles LLM predictions across these groups to reach a final decision. The advantage of Self-ensemble is its plug-and-play nature, where it can be integrated into existing LLM architecture based on a designed attention mask and positional encoding, without requiring labeled datasets for parameter tuning. Experimental results on three LLMs and datasets demonstrate that Self-ensemble comprehensively addresses the confidence distortion problem of LLMs, outperforming standard inference as well as baseline methods.
Abstract（参考訳）: LLM(Large Language Models)は一般の分野では良好に機能するが,特に回答選択数の増加に伴い,MCQA(Multi-choice Question-Awering)の信頼性歪み問題を示す。特に、多くの選択肢があるMCQAでは、LLMは正しい予測における自信不足と誤った予測における自信過多に悩まされ、性能が著しく低下する。この問題を解決するために,本稿では自己アンサンブルを提案する。提案手法は,選択を複数のグループに分割し,これらのグループ間でLCM予測をアンサンブルして最終決定に達する。セルフアンサンブルの利点はそのプラグ・アンド・プレイの性質であり、パラメータチューニングのためにラベル付きデータセットを必要とせず、デザインされたアテンションマスクと位置エンコーディングに基づいて既存のLLMアーキテクチャに統合できる。 3つのLLMおよびデータセットの実験結果から、自己アンサンブルはLLMの信頼歪問題に包括的に対処し、標準推定やベースライン法よりも優れることが示された。

関連論文リスト

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Set-LLM: A Permutation-Invariant LLM [2.9665130256021]
本論文は,大規模言語モデル(LLM)の順序感度という,特定の脆弱性によって動機付けられている。本研究では,事前学習型LLMに対する新しいアーキテクチャ適応であるSet-LLMを導入し,置換不変性を保証する混合集合文入力の処理を可能にする。
論文参考訳（メタデータ） (2025-05-21T12:14:26Z)
The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.602857110637736]
本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
論文参考訳（メタデータ） (2025-02-19T05:37:08Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文参考訳（メタデータ） (2024-04-17T22:12:41Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。