Fugu-MT 論文翻訳(概要): Language Model Cascades: Token-level uncertainty and beyond

論文の概要: Language Model Cascades: Token-level uncertainty and beyond

arxiv url: http://arxiv.org/abs/2404.10136v1
Date: Mon, 15 Apr 2024 21:02:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:51:25.401411
Title: Language Model Cascades: Token-level uncertainty and beyond
Title（参考訳）: 言語モデルカスケード:トークンレベルの不確実性
Authors: Neha Gupta, Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar,
Abstract要約: 言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
参考スコア（独自算出の注目度）: 65.38515344964647
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in language models (LMs) have led to significant improvements in quality on complex NLP tasks, but at the expense of increased inference costs. Cascading offers a simple strategy to achieve more favorable cost-quality tradeoffs: here, a small model is invoked for most "easy" instances, while a few "hard" instances are deferred to the large model. While the principles underpinning cascading are well-studied for classification tasks - with deferral based on predicted class uncertainty favored theoretically and practically - a similar understanding is lacking for generative LM tasks. In this work, we initiate a systematic study of deferral rules for LM cascades. We begin by examining the natural extension of predicted class uncertainty to generative LM tasks, namely, the predicted sequence uncertainty. We show that this measure suffers from the length bias problem, either over- or under-emphasizing outputs based on their lengths. This is because LMs produce a sequence of uncertainty values, one for each output token; and moreover, the number of output tokens is variable across examples. To mitigate this issue, we propose to exploit the richer token-level uncertainty information implicit in generative LMs. We argue that naive predicted sequence uncertainty corresponds to a simple aggregation of these uncertainties. By contrast, we show that incorporating token-level uncertainty through learned post-hoc deferral rules can significantly outperform such simple aggregation strategies, via experiments on a range of natural language benchmarks with FLAN-T5 models. We further show that incorporating embeddings from the smaller model and intermediate layers of the larger model can give an additional boost in the overall cost-quality tradeoff.
Abstract（参考訳）: 言語モデル(LM)の最近の進歩は、複雑なNLPタスクの品質を大幅に向上させたが、推論コストの増大を犠牲にしている。ここでは、小さなモデルがほとんどの"簡単"なインスタンスに対して起動され、少数の"ハード"なインスタンスは大きなモデルに延期されます。カスケーディングの根底にある原則は分類タスクによく研究されているが、予測されたクラスの不確実性に基づく推論は理論上も実用上も好まれるが、生成的LMタスクには同様の理解が欠如している。本研究では,LMカスケードの遅延規則の体系的研究を開始する。まず,予測クラス不確かさを生成的LMタスク,すなわち予測シーケンス不確かさに自然に拡張することから始める。本研究では,この尺度が,その長さに基づいて出力を過度に強調するか,過度に強調するかという,長さバイアスの問題に悩まされていることを示す。これは、LMが出力トークンごとに不確実な値列を生成し、さらに、出力トークンの数が例によって変動するためである。この問題を緩和するために,生成的LMにおいて暗黙的なトークンレベルの不確実性情報を活用することを提案する。ナイーブな予測シーケンスの不確実性は、これらの不確実性の単純な集合に対応すると論じる。対照的に、学習後遅延ルールによるトークンレベルの不確実性の導入は、FLAN-T5モデルを用いた様々な自然言語ベンチマークの実験を通じて、そのような単純な集約戦略を著しく上回ることを示す。さらに、より小さなモデルとより大きなモデルの中間層からの埋め込みを組み込むことで、全体的なコスト品質のトレードオフをさらに促進できることを示す。

関連論文リスト

Embedding Perturbation may Better Reflect the Uncertainty in LLM Reasoning [17.830165082895757]
不確実量化(UQ)技術は、その出力に関するモデルの不確実性を推定するために使われ、それらの出力が問題となる可能性があることを示す。 LLM推論タスクでは、最終回答だけでなく、推論の中間ステップについても不確実性を推定することが不可欠である。本研究により, LLMの誤った推論ステップは, 前回のトークン埋め込みの摂動に非常に敏感なトークンを含む傾向があることが明らかとなった。
論文参考訳（メタデータ） (2026-02-02T18:27:26Z)
OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data [42.23843583401247]
実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。 OpenEstimateは、数値推定のLMを評価するためのベンチマークである。 LM-elicited priors は不正確で過度に信頼されることが多い。
論文参考訳（メタデータ） (2025-10-16T19:35:22Z)
The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文参考訳（メタデータ） (2025-09-16T09:38:41Z)
An Information-Theoretic Perspective on Multi-LLM Uncertainty Estimation [7.018119896897734]
大規模言語モデル(LLM)は入力間で矛盾なく振る舞うことが多く、不確実性を示し、その定量化の必要性を高レベルな設定で動機付けている。本稿では,MUSE(Multi-LLM Uncertainty via Subset Ensembles)を提案する。二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文参考訳（メタデータ） (2025-07-09T19:13:25Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Has LLM Reached the Scaling Ceiling Yet? Unified Insights into LLM Regularities and Constraints [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示していますが、そのスケーラビリティには重要な疑問があります。本稿では,LLMのスケーリング力学を説明するために,数学的および統計的知見を統合する統一理論フレームワークを開発する。今後の進歩には、ブルートフォーススケーリングから、アーキテクチャ、データ品質、トレーニングパラダイムの革新に移行する必要があります。
論文参考訳（メタデータ） (2024-12-21T02:19:07Z)
CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。 LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文参考訳（メタデータ） (2024-09-04T18:27:12Z)
Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T22:22:09Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。プレッシャーの課題は、自信を持って間違った予測をする傾向にある。本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文参考訳（メタデータ） (2024-03-04T21:55:22Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Quantifying Uncertainty in Natural Language Explanations of Large Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文参考訳（メタデータ） (2023-11-06T21:14:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。