論文の概要: NDP: Next Distribution Prediction as a More Broad Target
- arxiv url: http://arxiv.org/abs/2408.17377v1
- Date: Fri, 30 Aug 2024 16:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 14:46:39.870929
- Title: NDP: Next Distribution Prediction as a More Broad Target
- Title(参考訳): NDP:もっと広いターゲットとしての次の配電予測
- Authors: Junhao Ruan, Abudukeyumu Abudula, Xinyu Liu, Bei Li, Yinqiao Li, Chenglong Wang, Yuchun Fan, Yuan Ge, Tong Xiao, Jingbo Zhu,
- Abstract要約: 我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。
NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
- 参考スコア(独自算出の注目度): 59.30497395313209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained on next-token prediction (NTP) paradigm have demonstrated powerful capabilities. However, the existing NTP paradigm contains several limitations, particularly related to planned task complications and error propagation during inference. In our work, we extend the critique of NTP, highlighting its limitation also due to training with a narrow objective: the prediction of a sub-optimal one-hot distribution. To support this critique, we conducted a pre-experiment treating the output distribution from powerful LLMs as efficient world data compression. By evaluating the similarity between the $n$-gram distribution and the one-hot distribution with LLMs, we observed that the $n$-gram distributions align more closely with the output distribution of LLMs. Based on this insight, we introduce Next Distribution Prediction (NDP), which uses $n$-gram distributions to replace the one-hot targets, enhancing learning without extra online training time. We conducted experiments across translation, general task, language transfer, and medical domain adaptation. Compared to NTP, NDP can achieve up to +2.97 COMET improvement in translation tasks, +0.61 average improvement in general tasks, and incredible +10.75 average improvement in the medical domain. This demonstrates the concrete benefits of addressing the target narrowing problem, pointing to a new direction for future work on improving NTP.
- Abstract(参考訳): 次世代予測(NTP)パラダイムに基づいて訓練された大規模言語モデル(LLM)は、強力な能力を示している。
しかし、既存のNTPパラダイムにはいくつかの制限があり、特に推論中の計画されたタスクの複雑化やエラーの伝播に関連している。
本研究では, NTP の限界を狭義の訓練により強調し, 準最適一点分布の予測を行う。
この批判を支援するために、我々は強力なLCMからの出力分布を効率的な世界データ圧縮として扱う実験を行った。
LLMの出力分布とn$-gram分布との類似性を評価することにより, LLMの出力分布とn$-gram分布がより密接に一致することを示した。
この知見に基づいて、Next Distribution Prediction (NDP)を導入し、n$-gramの分布を用いて、ワンホットターゲットを置き換え、オンライントレーニング時間を余分に必要とせずに学習を向上させる。
本研究は,翻訳,一般課題,言語伝達,医療領域適応にまたがる実験を行った。
NTPと比較して、NDPは翻訳タスクにおける最大2.97 COMETの改善、一般タスクにおける+0.61平均改善、医療領域における驚くべき+10.75平均改善を達成できる。
このことは, NTPの改善に向けた新たな取り組みの方向性を示唆して, 目標絞り問題に対処する上での具体的なメリットを示している。
関連論文リスト
- Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Generative Conditional Distributions by Neural (Entropic) Optimal Transport [12.152228552335798]
本稿では,条件分布の生成モデル学習を目的とした,ニューラルエントロピー最適輸送手法を提案する。
提案手法は,2つのニューラルネットワークのミニマックストレーニングに依存する。
実世界のデータセットを用いた実験では,現状条件分布学習法と比較して,アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-06-04T13:45:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Analyzing and Improving Optimal-Transport-based Adversarial Networks [9.980822222343921]
最適輸送(OT)問題は、与えられたコスト関数を最小化しつつ、2つの分布をブリッジする輸送計画を見つけることを目的としている。
OT理論は生成モデリングに広く利用されている。
提案手法はCIFAR-10では2.51点,CelebA-HQ-256では5.99点のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-10-04T06:52:03Z) - Distribution Shift Inversion for Out-of-Distribution Prediction [57.22301285120695]
本稿では,OoD(Out-of-Distribution)予測のためのポータブル分布シフト変換アルゴリズムを提案する。
提案手法は,OoDアルゴリズムを広範囲に接続した場合に,一般的な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2023-06-14T08:00:49Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - Distributed NLI: Learning to Predict Human Opinion Distributions for
Language Reasoning [76.17436599516074]
自然言語推論のための人間の判断の分布を予測することを目的としている新しいNLUタスクである分散NLIを紹介します。
本研究では,モンテカルロ(MC)Dropout,Deep Ensemble,Re-Calibration,Distribution Distillationという新たな分布推定手法を適用することで,人間の判断分布を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-18T01:25:19Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。