Fugu-MT 論文翻訳(概要): NDP: Next Distribution Prediction as a More Broad Target

論文の概要: NDP: Next Distribution Prediction as a More Broad Target

arxiv url: http://arxiv.org/abs/2408.17377v1
Date: Fri, 30 Aug 2024 16:13:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 14:46:39.870929
Title: NDP: Next Distribution Prediction as a More Broad Target
Title（参考訳）: NDP:もっと広いターゲットとしての次の配電予測
Authors: Junhao Ruan, Abudukeyumu Abudula, Xinyu Liu, Bei Li, Yinqiao Li, Chenglong Wang, Yuchun Fan, Yuan Ge, Tong Xiao, Jingbo Zhu,
Abstract要約: 我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。 NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
参考スコア（独自算出の注目度）: 59.30497395313209
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) trained on next-token prediction (NTP) paradigm have demonstrated powerful capabilities. However, the existing NTP paradigm contains several limitations, particularly related to planned task complications and error propagation during inference. In our work, we extend the critique of NTP, highlighting its limitation also due to training with a narrow objective: the prediction of a sub-optimal one-hot distribution. To support this critique, we conducted a pre-experiment treating the output distribution from powerful LLMs as efficient world data compression. By evaluating the similarity between the $n$-gram distribution and the one-hot distribution with LLMs, we observed that the $n$-gram distributions align more closely with the output distribution of LLMs. Based on this insight, we introduce Next Distribution Prediction (NDP), which uses $n$-gram distributions to replace the one-hot targets, enhancing learning without extra online training time. We conducted experiments across translation, general task, language transfer, and medical domain adaptation. Compared to NTP, NDP can achieve up to +2.97 COMET improvement in translation tasks, +0.61 average improvement in general tasks, and incredible +10.75 average improvement in the medical domain. This demonstrates the concrete benefits of addressing the target narrowing problem, pointing to a new direction for future work on improving NTP.
Abstract（参考訳）: 次世代予測(NTP)パラダイムに基づいて訓練された大規模言語モデル(LLM)は、強力な能力を示している。しかし、既存のNTPパラダイムにはいくつかの制限があり、特に推論中の計画されたタスクの複雑化やエラーの伝播に関連している。本研究では, NTP の限界を狭義の訓練により強調し, 準最適一点分布の予測を行う。この批判を支援するために、我々は強力なLCMからの出力分布を効率的な世界データ圧縮として扱う実験を行った。 LLMの出力分布とn$-gram分布との類似性を評価することにより, LLMの出力分布とn$-gram分布がより密接に一致することを示した。この知見に基づいて、Next Distribution Prediction (NDP)を導入し、n$-gramの分布を用いて、ワンホットターゲットを置き換え、オンライントレーニング時間を余分に必要とせずに学習を向上させる。本研究は,翻訳,一般課題,言語伝達,医療領域適応にまたがる実験を行った。 NTPと比較して、NDPは翻訳タスクにおける最大2.97 COMETの改善、一般タスクにおける+0.61平均改善、医療領域における驚くべき+10.75平均改善を達成できる。このことは, NTPの改善に向けた新たな取り組みの方向性を示唆して, 目標絞り問題に対処する上での具体的なメリットを示している。

関連論文リスト

L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文参考訳（メタデータ） (2025-05-23T05:59:46Z)
On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文参考訳（メタデータ） (2025-02-13T15:42:44Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。 DPSに対する新しいベイズ的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-06T09:04:13Z)
Correlation and Navigation in the Vocabulary Key Representation Space of Language Models [33.747872934103334]
鍵分布がNTP分布に及ぼす影響について検討した。 NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。提案手法をオープンエンドおよびチェーンオブ思考(推論)生成に拡張する。
論文参考訳（メタデータ） (2024-10-03T08:07:55Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition [36.031972728327894]
視覚変換器の文脈における代表的PETL法について検討した。 PETL法は低ショットのベンチマークVTAB-1Kでも同様の精度が得られる。 PETLは、多くのショットレシエーションでも有用であり、フルFTよりも同等で、時には精度が向上する。
論文参考訳（メタデータ） (2024-09-24T19:57:40Z)
Distribution Shift Inversion for Out-of-Distribution Prediction [57.22301285120695]
本稿では,OoD(Out-of-Distribution)予測のためのポータブル分布シフト変換アルゴリズムを提案する。提案手法は,OoDアルゴリズムを広範囲に接続した場合に,一般的な性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2023-06-14T08:00:49Z)
PDE+: Enhancing Generalization via PDE with Adaptive Distributional Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文参考訳（メタデータ） (2023-05-25T08:23:26Z)
Distributed NLI: Learning to Predict Human Opinion Distributions for Language Reasoning [76.17436599516074]
自然言語推論のための人間の判断の分布を予測することを目的としている新しいNLUタスクである分散NLIを紹介します。本研究では,モンテカルロ(MC)Dropout,Deep Ensemble,Re-Calibration,Distribution Distillationという新たな分布推定手法を適用することで,人間の判断分布を捉えることができることを示す。
論文参考訳（メタデータ） (2021-04-18T01:25:19Z)
Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2020-05-01T11:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。