論文の概要: AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses
- arxiv url: http://arxiv.org/abs/2001.05467v1
- Date: Wed, 15 Jan 2020 18:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:38:09.256706
- Title: AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses
- Title(参考訳): AvgOut: 重複応答を除去するための単純なアウトプット確率測定
- Authors: Tong Niu, Mohit Bansal
- Abstract要約: 機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
- 参考スコア(独自算出の注目度): 97.50616524350123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequence-to-sequence dialogue models tend to generate safe,
uninformative responses. There have been various useful efforts on trying to
eliminate them. However, these approaches either improve decoding algorithms
during inference, rely on hand-crafted features, or employ complex models. In
our work, we build dialogue models that are dynamically aware of what
utterances or tokens are dull without any feature-engineering. Specifically, we
start with a simple yet effective automatic metric, AvgOut, which calculates
the average output probability distribution of all time steps on the decoder
side during training. This metric directly estimates which tokens are more
likely to be generated, thus making it a faithful evaluation of the model
diversity (i.e., for diverse models, the token probabilities should be more
evenly distributed rather than peaked at a few dull tokens). We then leverage
this novel metric to propose three models that promote diversity without losing
relevance. The first model, MinAvgOut, directly maximizes the diversity score
through the output distributions of each batch; the second model, Label
Fine-Tuning (LFT), prepends to the source sequence a label continuously scaled
by the diversity score to control the diversity level; the third model, RL,
adopts Reinforcement Learning and treats the diversity score as a reward
signal. Moreover, we experiment with a hybrid model by combining the loss terms
of MinAvgOut and RL. All four models outperform their base LSTM-RNN model on
both diversity and relevance by a large margin, and are comparable to or better
than competitive baselines (also verified via human evaluation). Moreover, our
approaches are orthogonal to the base model, making them applicable as an
add-on to other emerging better dialogue models in the future.
- Abstract(参考訳): 多くのシーケンス・ツー・シーケンスの対話モデルは安全で非形式的な応答を生成する傾向がある。
それらを取り除くための様々な有用な取り組みがあった。
しかし、これらのアプローチは推論中の復号アルゴリズムを改善するか、手作りの機能に依存するか、複雑なモデルを採用するかのどちらかである。
本研究では,機能工学を使わずに発話やトークンが鈍いことを動的に認識する対話モデルを構築した。
具体的には、トレーニング中のデコーダ側のすべての時間ステップの平均出力確率分布を計算する、単純かつ効果的な自動メトリックであるavgoutから始める。
このメトリックは、どのトークンが生成されやすいかを直接見積もるので、モデルの多様性を忠実に評価することができる(例えば、多様なモデルでは、いくつかの鈍いトークンでピークとなるよりも、トークンの確率は均等に分配されるべきである)。
そして、この新しいメトリクスを利用して、関連性を失うことなく多様性を促進する3つのモデルを提案します。
第1のモデルであるminavgoutは、各バッチの出力分布を通じてダイバーシティスコアを直接最大化し、第2のモデルであるラベル微調整(lft)は、ダイバーシティスコアによって継続的にスケールされダイバーシティレベルを制御するラベルを、第3のモデルであるrlは強化学習を採用し、ダイバーシティスコアを報奨信号として扱う。
さらに,minavgout と rl の損失項を組み合わせたハイブリッドモデルを用いて実験を行った。
4つのモデルはいずれも、多様性と関連性の両方でベースとなるLSTM-RNNモデルよりも優れており、競争ベースライン(人間による評価による検証)に匹敵する。
さらに,我々のアプローチはベースモデルと直交し,将来に出現する他の優れた対話モデルへのアドオンとして適用できる。
関連論文リスト
- Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。