Fugu-MT 論文翻訳(概要): Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models

論文の概要: Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models

arxiv url: http://arxiv.org/abs/2307.01379v2
Date: Mon, 9 Oct 2023 14:26:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 08:05:21.220580
Title: Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models
Title（参考訳）: 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて
Authors: Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing Xu, Bhavya Kailkhura, Kaidi Xu
Abstract要約: 大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
参考スコア（独自算出の注目度）: 28.67546891608135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Large Language Models (LLMs) have demonstrated remarkable potential in natural language generation and instruction following, a persistent challenge lies in their susceptibility to "hallucinations", which erodes trust in their outputs. Although Uncertainty Quantification (UQ) presents a promising solution, its accurate implementation within the context of LLMs remains a significant hurdle. To address this critical roadblock, our research originates from a fundamental heuristic insight: tokens within auto-regressive LLM-generated text do not equally reflect the underlying meaning. Some tokens carry greater relevance and representativeness than others, owing to the phenomenon of "linguistic redundancy", wherein a select few keywords suffice to convey the essence of lengthy sentences. Regrettably, existing methodologies treat all tokens with equal importance when estimating uncertainty, disregarding these inherent generative inequalities. Our analysis reveals a significant issue with state-of-the-art: numerous tokens (and sentences) of limited semantic significance receive equal or even excessive weighting during uncertainty estimation. To rectify this bias, we propose to jointly Shifting Attention to more Relevant (SAR) components, at both the token- and the sentence-levels for accurate uncertainty estimation. We conduct extensive experiments involving a range of popular "off-the-shelf" LLMs, including instruction-tuned LLMs such as Vicuna, WizardLM, and LLaMA-2-chat, as well as pretrained LLMs like OPT and LLaMA, with model sizes extending up to 33B parameters. We carry out evaluation across various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results demonstrate the superior performance of SAR in addressing the challenges of uncertainty estimation within the realm of LLMs.
Abstract（参考訳）: 大規模言語モデル (LLM) は、自然言語の生成と指示に顕著な可能性を示しているが、持続的な課題は、その出力に対する信頼を損なう「幻覚」への感受性にある。不確実性定量化(UQ)は有望な解であるが、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。この重要な障害に対処するために、我々の研究は基本的なヒューリスティックな洞察からきている: 自己回帰的LLM生成テキスト中のトークンは、基礎となる意味を等しく反映しない。いくつかのトークンは「言語的冗長性」という現象のため、他のトークンよりも関連性や代表性が強く、選択されたキーワードが長文の本質を伝えるのに十分である。既存の方法論は、これらの固有の生成的不平等を無視して、不確実性を推定するときに、すべてのトークンを同等に重要視している。意味的重要性が限定された多数のトークン(および文)は、不確実性推定中に等量あるいは過度な重み付けを受ける。このバイアスを正すために,トークンレベルと文レベルの両方において,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。我々は、Vicuna、WizardLM、LLaMA-2-chatのような命令調整型LLMや、OPTやLLaMAのような事前訓練型LLMを含む、一般的な「既製の」LLMの幅広い実験を行い、モデルサイズを最大33Bパラメータまで拡張した。我々は,読解,理科Q&A,医学Q&Aなどの領域を網羅した,自由形式の質問応答タスクの評価を行う。 LLMの領域における不確実性推定の課題に対するSARの優れた性能を示す実験結果を得た。

関連論文リスト

Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Randomly Sampled Language Reasoning Problems Explain Limits of LLMs [8.146860674148044]
LLMは機械学習の分野に革命をもたらした。彼らは計画が不十分で、誤った答えを幻覚し、同じタスクのあまり標準的でないバージョンのパフォーマンスを低下させ、様々な特定のプロンプトで誤って答えることが知られている。本稿では,LLMの低性能要因としてノベルティの分離を試みる。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文参考訳（メタデータ） (2024-03-29T16:49:24Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。