論文の概要: Evaluation of Large Language Models via Coupled Token Generation
- arxiv url: http://arxiv.org/abs/2502.01754v1
- Date: Mon, 03 Feb 2025 19:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:43.956088
- Title: Evaluation of Large Language Models via Coupled Token Generation
- Title(参考訳): 結合トークン生成による大規模言語モデルの評価
- Authors: Nina Corvelo Benz, Stratis Tsirtsis, Eleni Straitouri, Ivi Chatzi, Ander Artola Velasco, Suhas Thejaswi, Manuel Gomez-Rodriguez,
- Abstract要約: 最先端の大規模言語モデルは、プロンプトに対応するためにランダム化に依存している。
大規模言語モデルの評価とランク付けは,それらの機能を支えるランダム化を制御すべきである,と我々は主張する。
- 参考スコア(独自算出の注目度): 15.0803535133762
- License:
- Abstract: State of the art large language models rely on randomization to respond to a prompt. As an immediate consequence, a model may respond differently to the same prompt if asked multiple times. In this work, we argue that the evaluation and ranking of large language models should control for the randomization underpinning their functioning. Our starting point is the development of a causal model for coupled autoregressive generation, which allows different large language models to sample responses with the same source of randomness. Building upon our causal model, we first show that, on evaluations based on benchmark datasets, coupled autoregressive generation leads to the same conclusions as vanilla autoregressive generation but using provably fewer samples. However, we further show that, on evaluations based on (human) pairwise comparisons, coupled and vanilla autoregressive generation can surprisingly lead to different rankings when comparing more than two models, even with an infinite amount of samples. This suggests that the apparent advantage of a model over others in existing evaluation protocols may not be genuine but rather confounded by the randomness inherent to the generation process. To illustrate and complement our theoretical results, we conduct experiments with several large language models from the Llama family. We find that, across multiple knowledge areas from the popular MMLU benchmark dataset, coupled autoregressive generation requires up to 40% fewer samples to reach the same conclusions as vanilla autoregressive generation. Further, using data from the LMSYS Chatbot Arena platform, we find that the win-rates derived from pairwise comparisons by a strong large language model to prompts differ under coupled and vanilla autoregressive generation.
- Abstract(参考訳): 最先端の大規模言語モデルは、プロンプトに対応するためにランダム化に依存している。
即時的な結果として、モデルは同じプロンプトに対して何度も尋ねられた場合、異なる反応をすることができる。
本研究では,大規模言語モデルの評価とランク付けが,それらの機能を支えるランダム化を制御すべきである,と論じる。
我々の出発点は、結合された自己回帰生成のための因果モデルの開発であり、これは異なる大きな言語モデルで同じランダムなソースで応答をサンプリングすることを可能にする。
因果モデルに基づいて、まず、ベンチマークデータセットに基づく評価に基づいて、結合された自己回帰生成は、バニラ自己回帰生成と同じ結論をもたらすが、確実に少ないサンプルを使用することを示した。
しかし, 両対比較に基づく評価では, 無限のサンプルであっても, 2モデル以上のモデルを比較する場合, 結合およびバニラ自己回帰生成が驚くほど異なるランキングに導かれることが示されている。
これは、既存の評価プロトコルにおいて、モデルが他のモデルよりも明らかな優位性は、真ではなく、生成プロセスに固有のランダム性によって構築されることを示唆している。
理論的結果を説明・補完するために,Llama ファミリーの大規模言語モデルを用いて実験を行った。
一般的なMMLUベンチマークデータセットから得られた複数の知識領域において、バニラ自己回帰生成と同じ結論に達するために、結合された自己回帰生成は最大40%のサンプルを必要とすることがわかった。
さらに, LMSYS Chatbot Arena プラットフォームから得られたデータを用いて, 強大言語モデルによる一対比較から得られる勝率が, 結合およびバニラ自己回帰生成において異なることを示す。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Robustness Analysis of Deep Learning Models for Population Synthesis [5.9106199000537645]
複数のデータセットに対するロバスト性を評価するため, 深部生成モデルのブートストラップ信頼区間を示す。
これらのモデルは、2008年、2013年、2018年のモントリオール・オリジン・デスチネーション・サーベイの複数の旅行日記に実装されている。
その結果,CTGANの予測誤差は,複数のデータセットに対する堅牢性を示す信頼区間が狭かった。
論文 参考訳(メタデータ) (2022-11-23T22:55:55Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Multi-Referenced Training for Dialogue Response Generation [36.24321477524634]
実世界の確率分布と単一参照データの確率分布とのギャップは,モデルが1対多の関係を効率的に学習することを妨げることを示す。
我々は、実世界の分布をよりよく近似するマルチ参照データを構築するために、強力な事前学習モデルから多様な擬似参照を生成する。
論文 参考訳(メタデータ) (2020-09-15T14:17:53Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。