論文の概要: Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
- arxiv url: http://arxiv.org/abs/2401.05054v1
- Date: Wed, 10 Jan 2024 10:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:52:24.246806
- Title: Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
- Title(参考訳): ベイズリスク最小デコードによる多様で高品質なテキストの生成
- Authors: Yuu Jinnai, Ukyo Honda, Tetsuro Morimura, Peinan Zhang
- Abstract要約: 多様性目標を最小ベイズ・リスク復号化に適用することにより,多様性向上のための復号化アルゴリズムを開発した。
我々は、エンコーダデコーダモデルとプロンプト付き大規模言語モデルを用いて、様々な有向テキスト生成タスクにおいてDMBRとKMBRを評価する。
- 参考スコア(独自算出の注目度): 4.598952248108299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most important challenges in text generation systems is to produce
outputs that are not only correct but also diverse. Recently, Minimum
Bayes-Risk (MBR) decoding has gained prominence for generating sentences of the
highest quality among the decoding algorithms. However, existing algorithms
proposed for generating diverse outputs are predominantly based on beam search
or random sampling, thus their output quality is capped by these underlying
methods. In this paper, we investigate an alternative approach -- we develop
diversity-promoting decoding algorithms by enforcing diversity objectives to
MBR decoding. We propose two variants of MBR, Diverse MBR (DMBR) and
$k$-medoids MBR (KMBR), methods to generate a set of sentences with high
quality and diversity. We evaluate DMBR and KMBR on a variety of directed text
generation tasks using encoder-decoder models and a large language model with
prompting. The experimental results show that the proposed method achieves a
better trade-off than the diverse beam search and sampling algorithms.
- Abstract(参考訳): テキスト生成システムにおける最も重要な課題の1つは、正しいだけでなく多様な出力を生成することである。
近年、最小ベイズリスク(MBR)復号法は、復号アルゴリズムの中で最高品質の文を生成することで注目されている。
しかし、様々な出力を生成するために提案されている既存のアルゴリズムは、ビーム探索やランダムサンプリングに基づいており、その出力品質はこれらの基礎となる手法に支えられている。
本稿では,多様性目標をMBRデコーディングに適用することで,多様性向上のためのデコーディングアルゴリズムを開発する。
MBRの2つの変種であるDiverse MBR(DMBR)と$k$-medoids MBR(KMBR)を提案する。
我々はdmbrとkmbrをエンコーダ・デコーダモデルとプロンプトによる大規模言語モデルを用いて様々な有向テキスト生成タスクで評価する。
実験の結果,提案手法は多様なビーム探索およびサンプリングアルゴリズムよりも優れたトレードオフを実現することがわかった。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Improving Minimum Bayes Risk Decoding with Multi-Prompt [10.401677244785166]
提案するマルチプロンプト復号法では,多くの候補が推論時にプロンプトバンクから復号される。
候補をアンサンブルするために、最小ベイズリスク(MBR)デコーディングを使用し、トレーニングされた値メトリックを使用して最終的な出力を選択する。
論文 参考訳(メタデータ) (2024-07-22T02:57:10Z) - Efficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithms [19.543681023903456]
行列補完問題として最小ベイズリスク(MBR)デコーディングを定式化する。
我々は、スコアのランダムな部分集合のみを計算し、行列の欠落したエントリを効率的に回収することでこれを活用する。
機械翻訳タスクに対する実験結果から,提案手法は1/16の有効量計算を必要とすることが示された。
論文 参考訳(メタデータ) (2024-06-05T00:54:03Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding [5.639904484784127]
最小ベイズリスクデコーディング(MBR)は、幅広いテキスト生成タスクに対するビームサーチデコーディングの強力な代替手段である。
MBRは、目的を計算するのに膨大な時間を必要とする。
CBP(Confidence-based pruning)は、最近機械翻訳タスクにおける推論時間を削減するために提案されている。
論文 参考訳(メタデータ) (2024-01-05T11:02:08Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - It's MBR All the Way Down: Modern Generation Techniques Through the Lens
of Minimum Bayes Risk [57.641436861482696]
最小ベイズリスク(MBR)復号法(英: Minimum Bayes Risk, MBR)は、最も高い確率で出力するだけでなく、複数の候補の間で最も低いリスク(予測誤差)を持つ出力に基づいて、機械学習システムの出力を選択する方法である。
論文 参考訳(メタデータ) (2023-10-02T17:47:10Z) - Epsilon Sampling Rocks: Investigating Sampling Strategies for Minimum
Bayes Risk Decoding for Machine Translation [20.749494856466526]
最小ベイズリスク復号法における候補リスト生成のためのサンプリング手法の違いが性能に与える影響を示す。
それらの限界に対する洞察に基づいて、最近提案されたエプシロンサンプリングアプローチを実験し、エプシロンよりも小さい確率で全てのトークンを掘り起こす。
論文 参考訳(メタデータ) (2023-05-17T00:11:38Z) - Best-$k$ Search Algorithm for Neural Text Generation [118.02691398555781]
本稿では,品質と多様性のバランスをとる決定論的探索アルゴリズムを提案する。
提案アルゴリズムはパラメータフリーで、軽量で、効率的で、使いやすくなっている。
論文 参考訳(メタデータ) (2022-11-22T00:26:13Z) - Follow the Wisdom of the Crowd: Effective Text Generation via Minimum
Bayes Risk Decoding [27.454582992694974]
本稿では,ベイズリスク最小化に基づく復号法群である群集サンプリングについて述べる。
群衆のサンプリングは、最小限のリスクを持つ候補者のプールから候補者を選ぼうとする。
実験により, 群集サンプリングにより, 広範囲にわたる3~7ROUGE点とBLEU点の改善が得られた。
論文 参考訳(メタデータ) (2022-11-14T18:57:37Z) - An Analysis of the Effects of Decoding Algorithms on Fairness in
Open-Ended Language Generation [77.44921096644698]
本稿では,復号化アルゴリズムがLMフェアネスに与える影響を体系的に分析する。
公平さ、多様性、品質のトレードオフを分析します。
論文 参考訳(メタデータ) (2022-10-07T21:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。