論文の概要: Unused information in token probability distribution of generative LLM: improving LLM reading comprehension through calculation of expected values
- arxiv url: http://arxiv.org/abs/2406.10267v1
- Date: Tue, 11 Jun 2024 09:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:31:17.276230
- Title: Unused information in token probability distribution of generative LLM: improving LLM reading comprehension through calculation of expected values
- Title(参考訳): 生成LDMのトークン確率分布における未使用情報:予測値の計算によるLCM読取理解の改善
- Authors: Krystian Zawistowski,
- Abstract要約: トークン確率の操作により復号法を改良できることを示す2つの実験を行った。
まず,SummEvalの要約スコアリングデータセットを用いて,読解理解度を測定する。
スコアのエントロピーを高めるために,ロジットを高温でスケールする。
7BMistralでは6-8%から13-28%,Mixtralでは20%-46%から37%-56%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM text decoding is key component for perceived LLM quality. We demonstrate two experiments showing that decoding methods could be improved by manipulation of token probabilities. First, we test few LLM on SummEval summary scoring dataset, to measure reading comprehension. We compare scores from greedy decoding to expected values over the next token distribution. We scale logits by large temperature to increase the entropy of scores. This allows strong improvement of performance on SummEval (in terms of correlations to human judgement). We see improvement from 6-8% to 13-28% for 7B Mistral and from 20%-46% to 37%-56% for Mixtral, beating GPT 4 0314 result on two metrics. Part of the gain seems related to positional bias. Secondly, we use probability-based tree sampling algorithm, to examine all most probable generations for given prompt.
- Abstract(参考訳): LLMテキストデコーディングは、LLMの品質を認識するための重要なコンポーネントである。
トークン確率の操作により復号法を改良できることを示す2つの実験を行った。
まず,SummEvalの要約スコアリングデータセットを用いて,読解理解度を測定する。
欲求復号から期待値までのスコアを次のトークン分布で比較する。
スコアのエントロピーを高めるために,ロジットを高温でスケールする。
これにより SummEval のパフォーマンスが向上する(人間の判断に相関する)。
7BMistralでは6-8%から13-28%,Mixtralでは20%-46%から37%-56%に改善した。
利得の一部は位置バイアスに関係しているようだ。
第2に、確率に基づく木サンプリングアルゴリズムを用いて、与えられたプロンプトに対して最も確率の高い世代すべてを調べる。
関連論文リスト
- Bayesian Calibration of Win Rate Estimation with LLM Evaluators [20.588104799661014]
本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
論文 参考訳(メタデータ) (2024-11-07T04:32:40Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。
NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。
提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文 参考訳(メタデータ) (2024-10-03T08:07:55Z) - SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores [4.4378250612684]
ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。
BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。
LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか?
論文 参考訳(メタデータ) (2024-04-30T07:38:08Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。