Fugu-MT 論文翻訳(概要): Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling

論文の概要: Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling

arxiv url: http://arxiv.org/abs/2406.12585v1
Date: Tue, 18 Jun 2024 13:17:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 18:58:07.345120
Title: Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling
Title（参考訳）: 組立の分類としてのトークン生成処理によるLCMコミュニティの焼成の破壊
Authors: Yao-Ching Yu, Chun-Chih Kuo, Ziqi Ye, Yu-Cheng Chang, Yueh-Se Li,
Abstract要約: 本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
参考スコア（独自算出の注目度）: 3.873482175367558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensembling multiple models has always been an effective approach to push the limits of existing performance and is widely used in classification tasks by simply averaging the classification probability vectors from multiple classifiers to achieve better accuracy. However, in the thriving open-source Large Language Model (LLM) community, ensembling methods are rare and typically limited to ensembling the full-text outputs of LLMs, such as selecting the best output using a ranker, which leads to underutilization of token-level probability information. In this paper, we treat the Generation of each token by LLMs as a Classification (GaC) for ensembling. This approach fully exploits the probability information at each generation step and better prevents LLMs from producing early incorrect tokens that lead to snowballing errors. In experiments, we ensemble state-of-the-art LLMs on several benchmarks, including exams, mathematics and reasoning, and observe that our method breaks the existing community performance ceiling. Furthermore, we observed that most of the tokens in the answer are simple and do not affect the correctness of the final answer. Therefore, we also experimented with ensembling only key tokens, and the results showed better performance with lower latency across benchmarks.
Abstract（参考訳）: 複数のモデルを組み立てることは常に、既存の性能の限界を押し上げる効果的なアプローチであり、複数の分類器から分類確率ベクトルを平均化し、精度を向上させることで、分類タスクに広く利用されている。しかし、オープンソースのLarge Language Model (LLM) コミュニティでは、アンサンブル手法はまれであり、通常はランサーを用いて最高の出力を選択するなど、LLMのフルテキスト出力のアンサンブルに限られており、トークンレベルの確率情報の未利用につながる。本稿では,LLMによる各トークンの生成を,アンサンブルのための分類(GaC)として扱う。このアプローチは、各生成ステップの確率情報を完全に活用し、LSMが早期の不正なトークンを生成できないようにし、スノーボールエラーを引き起こす。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。さらに,回答のトークンの大部分は単純であり,最終回答の正しさには影響しないことがわかった。また,キートークンのみをアンサンブルする実験を行い,ベンチマーク間のレイテンシを低くすることで,性能が向上した。

関連論文リスト

Feeding LLM Annotations to BERT Classifiers at Your Own Risk [14.533304890042361]
テキスト分類のための小さなエンコーダのみのモデルにLLM生成ラベルを使用することは、様々な設定で人気を博している。合成データに対する訓練の長年の呪いが、この特定の設定でどのように現れているかを実証する。金ラベルでトレーニングされたモデルと比較して、精度とF1スコアが期待される性能劣化だけでなく、トレーニングランと未熟なパフォーマンスプラトーの不安定性も向上する。
論文参考訳（メタデータ） (2025-04-21T20:54:55Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文参考訳（メタデータ） (2024-10-14T07:13:47Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。 GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
The Curious Case of Class Accuracy Imbalance in LLMs: Post-hoc Debiasing via Nonlinear Integer Programming [12.287692969438169]
大規模言語モデル(LLM)は優れた知識ベースであるが、テキスト分類における全てのクラスで同等に機能するのに苦労する。本稿では,LLMにおけるクラス精度の不均衡の事例について考察する。バイアス識別の難しさと再トレーニングの到達性の難しさを克服するため,出力確率のみを用いたポストホックバランスクラスの精度について検討した。
論文参考訳（メタデータ） (2024-05-13T10:30:33Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文参考訳（メタデータ） (2023-05-09T11:00:02Z)
Easy Learning from Label Proportions [17.71834385754893]
Easyllpは、アグリゲーションラベルに基づいた、柔軟で簡単に実装可能なデバイアス方式である。我々の手法は、任意のモデルが個々のレベルで予想される損失を正確に見積もることができる。
論文参考訳（メタデータ） (2023-02-06T20:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。