論文の概要: AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses
- arxiv url: http://arxiv.org/abs/2001.05467v1
- Date: Wed, 15 Jan 2020 18:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:38:09.256706
- Title: AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses
- Title(参考訳): AvgOut: 重複応答を除去するための単純なアウトプット確率測定
- Authors: Tong Niu, Mohit Bansal
- Abstract要約: 機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
- 参考スコア(独自算出の注目度): 97.50616524350123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequence-to-sequence dialogue models tend to generate safe,
uninformative responses. There have been various useful efforts on trying to
eliminate them. However, these approaches either improve decoding algorithms
during inference, rely on hand-crafted features, or employ complex models. In
our work, we build dialogue models that are dynamically aware of what
utterances or tokens are dull without any feature-engineering. Specifically, we
start with a simple yet effective automatic metric, AvgOut, which calculates
the average output probability distribution of all time steps on the decoder
side during training. This metric directly estimates which tokens are more
likely to be generated, thus making it a faithful evaluation of the model
diversity (i.e., for diverse models, the token probabilities should be more
evenly distributed rather than peaked at a few dull tokens). We then leverage
this novel metric to propose three models that promote diversity without losing
relevance. The first model, MinAvgOut, directly maximizes the diversity score
through the output distributions of each batch; the second model, Label
Fine-Tuning (LFT), prepends to the source sequence a label continuously scaled
by the diversity score to control the diversity level; the third model, RL,
adopts Reinforcement Learning and treats the diversity score as a reward
signal. Moreover, we experiment with a hybrid model by combining the loss terms
of MinAvgOut and RL. All four models outperform their base LSTM-RNN model on
both diversity and relevance by a large margin, and are comparable to or better
than competitive baselines (also verified via human evaluation). Moreover, our
approaches are orthogonal to the base model, making them applicable as an
add-on to other emerging better dialogue models in the future.
- Abstract(参考訳): 多くのシーケンス・ツー・シーケンスの対話モデルは安全で非形式的な応答を生成する傾向がある。
それらを取り除くための様々な有用な取り組みがあった。
しかし、これらのアプローチは推論中の復号アルゴリズムを改善するか、手作りの機能に依存するか、複雑なモデルを採用するかのどちらかである。
本研究では,機能工学を使わずに発話やトークンが鈍いことを動的に認識する対話モデルを構築した。
具体的には、トレーニング中のデコーダ側のすべての時間ステップの平均出力確率分布を計算する、単純かつ効果的な自動メトリックであるavgoutから始める。
このメトリックは、どのトークンが生成されやすいかを直接見積もるので、モデルの多様性を忠実に評価することができる(例えば、多様なモデルでは、いくつかの鈍いトークンでピークとなるよりも、トークンの確率は均等に分配されるべきである)。
そして、この新しいメトリクスを利用して、関連性を失うことなく多様性を促進する3つのモデルを提案します。
第1のモデルであるminavgoutは、各バッチの出力分布を通じてダイバーシティスコアを直接最大化し、第2のモデルであるラベル微調整(lft)は、ダイバーシティスコアによって継続的にスケールされダイバーシティレベルを制御するラベルを、第3のモデルであるrlは強化学習を採用し、ダイバーシティスコアを報奨信号として扱う。
さらに,minavgout と rl の損失項を組み合わせたハイブリッドモデルを用いて実験を行った。
4つのモデルはいずれも、多様性と関連性の両方でベースとなるLSTM-RNNモデルよりも優れており、競争ベースライン(人間による評価による検証)に匹敵する。
さらに,我々のアプローチはベースモデルと直交し,将来に出現する他の優れた対話モデルへのアドオンとして適用できる。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。