Fugu-MT 論文翻訳(概要): TLDR: Token Loss Dynamic Reweighting for Reducing Repetitive Utterance Generation

論文の概要: TLDR: Token Loss Dynamic Reweighting for Reducing Repetitive Utterance Generation

arxiv url: http://arxiv.org/abs/2003.11963v2
Date: Thu, 9 Apr 2020 09:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-19 21:40:25.756993
Title: TLDR: Token Loss Dynamic Reweighting for Reducing Repetitive Utterance Generation
Title（参考訳）: tldr:繰り返し発声低減のためのトークン損失動的重み付け
Authors: Shaojie Jiang, Thomas Wolf, Christof Monz, Maarten de Rijke
Abstract要約: 本稿では、リカレントニューラルネットワーク(RNN)とトランスフォーマーアーキテクチャの両方を用いて、エンコーダデコーダモデルの繰り返し問題について検討する。ハードトークンの重量を高くし、簡単なトークンの重量を低くすることで、NLGモデルは異なるペースで個々のトークンを学習することができる。
参考スコア（独自算出の注目度）: 52.3803408133162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural Language Generation (NLG) models are prone to generating repetitive utterances. In this work, we study the repetition problem for encoder-decoder models, using both recurrent neural network (RNN) and transformer architectures. To this end, we consider the chit-chat task, where the problem is more prominent than in other tasks that need encoder-decoder architectures. We first study the influence of model architectures. By using pre-attention and highway connections for RNNs, we manage to achieve lower repetition rates. However, this method does not generalize to other models such as transformers. We hypothesize that the deeper reason is that in the training corpora, there are hard tokens that are more difficult for a generative model to learn than others and, once learning has finished, hard tokens are still under-learned, so that repetitive generations are more likely to happen. Based on this hypothesis, we propose token loss dynamic reweighting (TLDR) that applies differentiable weights to individual token losses. By using higher weights for hard tokens and lower weights for easy tokens, NLG models are able to learn individual tokens at different paces. Experiments on chit-chat benchmark datasets show that TLDR is more effective in repetition reduction for both RNN and transformer architectures than baselines using different weighting functions.
Abstract（参考訳）: 自然言語生成(NLG)モデルは、繰り返し発話を生成する傾向にある。本研究では,recurrent neural network (rnn) とtransformerアーキテクチャを用いて,エンコーダ・デコーダモデルの繰り返し問題について検討する。この目的のために,エンコーダ・デコーダアーキテクチャを必要とする他のタスクよりも問題は顕著であるchit-chatタスクを考える。まず,モデルアーキテクチャの影響について検討する。 RNNの事前接続と高速道路接続を利用することで、より低い繰り返し率を達成することができる。しかし、この方法はトランスフォーマーのような他のモデルにも一般化しない。より深い理由は、トレーニングコーパスでは、生成モデルが他の人よりも学習するのが困難であり、学習が終わると、ハードトークンはいまだ学習が不足しているため、繰り返し世代が発生する可能性が高い、という仮説を立てる。この仮説に基づき,個々のトークン損失に対して微分可能重みを適用するトークン損失動的重み付け(tldr)を提案する。ハードトークンの重量を高くし、簡単なトークンの重量を低くすることで、NLGモデルは異なるペースで個々のトークンを学習することができる。チットチャットベンチマークデータセットの実験により、TLDRは異なる重み付け関数を用いたベースラインよりも、RNNとトランスフォーマーアーキテクチャの両方の繰り返し還元に有効であることが示された。

関連論文リスト

TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5464748274973026]
トークンレベルで純粋に動作する回帰的な損失を示す。我々の提案したナンバートークン損失(NTL)は2つのフレーバーを持ち、Lpノルムまたはワッサーシュタイン距離を最小化する。提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。
論文参考訳（メタデータ） (2024-11-04T13:43:24Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。 SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文参考訳（メタデータ） (2023-02-27T16:43:04Z)
Decomposing a Recurrent Neural Network into Modules for Enabling Reusability and Replacement [11.591247347259317]
RNNをモジュールに分解する最初の手法を提案する。我々は,Vanilla,LSTM,GRUなど,さまざまな種類のRNNを研究している。本稿では,RNNモジュールを再利用し,様々なシナリオで置き換える方法について述べる。
論文参考訳（メタデータ） (2022-12-09T03:29:38Z)
Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。非分化性のため、SNNを効率的に訓練することは困難である。本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文参考訳（メタデータ） (2022-05-01T12:44:49Z)
TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文参考訳（メタデータ） (2021-04-04T02:34:55Z)
Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。 Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。 Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文参考訳（メタデータ） (2020-11-05T19:38:54Z)
A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文参考訳（メタデータ） (2020-09-23T17:12:06Z)
A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文参考訳（メタデータ） (2020-04-22T09:16:09Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。