論文の概要: Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
- arxiv url: http://arxiv.org/abs/2401.05054v1
- Date: Wed, 10 Jan 2024 10:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:52:24.246806
- Title: Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
- Title(参考訳): ベイズリスク最小デコードによる多様で高品質なテキストの生成
- Authors: Yuu Jinnai, Ukyo Honda, Tetsuro Morimura, Peinan Zhang
- Abstract要約: 多様性目標を最小ベイズ・リスク復号化に適用することにより,多様性向上のための復号化アルゴリズムを開発した。
我々は、エンコーダデコーダモデルとプロンプト付き大規模言語モデルを用いて、様々な有向テキスト生成タスクにおいてDMBRとKMBRを評価する。
- 参考スコア(独自算出の注目度): 4.598952248108299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most important challenges in text generation systems is to produce
outputs that are not only correct but also diverse. Recently, Minimum
Bayes-Risk (MBR) decoding has gained prominence for generating sentences of the
highest quality among the decoding algorithms. However, existing algorithms
proposed for generating diverse outputs are predominantly based on beam search
or random sampling, thus their output quality is capped by these underlying
methods. In this paper, we investigate an alternative approach -- we develop
diversity-promoting decoding algorithms by enforcing diversity objectives to
MBR decoding. We propose two variants of MBR, Diverse MBR (DMBR) and
$k$-medoids MBR (KMBR), methods to generate a set of sentences with high
quality and diversity. We evaluate DMBR and KMBR on a variety of directed text
generation tasks using encoder-decoder models and a large language model with
prompting. The experimental results show that the proposed method achieves a
better trade-off than the diverse beam search and sampling algorithms.
- Abstract(参考訳): テキスト生成システムにおける最も重要な課題の1つは、正しいだけでなく多様な出力を生成することである。
近年、最小ベイズリスク(MBR)復号法は、復号アルゴリズムの中で最高品質の文を生成することで注目されている。
しかし、様々な出力を生成するために提案されている既存のアルゴリズムは、ビーム探索やランダムサンプリングに基づいており、その出力品質はこれらの基礎となる手法に支えられている。
本稿では,多様性目標をMBRデコーディングに適用することで,多様性向上のためのデコーディングアルゴリズムを開発する。
MBRの2つの変種であるDiverse MBR(DMBR)と$k$-medoids MBR(KMBR)を提案する。
我々はdmbrとkmbrをエンコーダ・デコーダモデルとプロンプトによる大規模言語モデルを用いて様々な有向テキスト生成タスクで評価する。
実験の結果,提案手法は多様なビーム探索およびサンプリングアルゴリズムよりも優れたトレードオフを実現することがわかった。
関連論文リスト
- Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [61.63208012250885]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding [6.662800021628276]
最小ベイズリスクデコーディング(MBR)は、幅広いテキスト生成タスクに対するビームサーチデコーディングの強力な代替手段である。
MBRは、目的を計算するのに膨大な時間を必要とする。
CBP(Confidence-based pruning)は、最近機械翻訳タスクにおける推論時間を削減するために提案されている。
論文 参考訳(メタデータ) (2024-01-05T11:02:08Z) - Quality-Aware Translation Models: Efficient Generation and Quality
Estimation in a Single Model [80.52182596068464]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - It's MBR All the Way Down: Modern Generation Techniques Through the Lens
of Minimum Bayes Risk [57.641436861482696]
最小ベイズリスク(MBR)復号法(英: Minimum Bayes Risk, MBR)は、最も高い確率で出力するだけでなく、複数の候補の間で最も低いリスク(予測誤差)を持つ出力に基づいて、機械学習システムの出力を選択する方法である。
論文 参考訳(メタデータ) (2023-10-02T17:47:10Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Epsilon Sampling Rocks: Investigating Sampling Strategies for Minimum
Bayes Risk Decoding for Machine Translation [20.749494856466526]
最小ベイズリスク復号法における候補リスト生成のためのサンプリング手法の違いが性能に与える影響を示す。
それらの限界に対する洞察に基づいて、最近提案されたエプシロンサンプリングアプローチを実験し、エプシロンよりも小さい確率で全てのトークンを掘り起こす。
論文 参考訳(メタデータ) (2023-05-17T00:11:38Z) - Best-$k$ Search Algorithm for Neural Text Generation [118.02691398555781]
本稿では,品質と多様性のバランスをとる決定論的探索アルゴリズムを提案する。
提案アルゴリズムはパラメータフリーで、軽量で、効率的で、使いやすくなっている。
論文 参考訳(メタデータ) (2022-11-22T00:26:13Z) - Follow the Wisdom of the Crowd: Effective Text Generation via Minimum
Bayes Risk Decoding [27.454582992694974]
本稿では,ベイズリスク最小化に基づく復号法群である群集サンプリングについて述べる。
群衆のサンプリングは、最小限のリスクを持つ候補者のプールから候補者を選ぼうとする。
実験により, 群集サンプリングにより, 広範囲にわたる3~7ROUGE点とBLEU点の改善が得られた。
論文 参考訳(メタデータ) (2022-11-14T18:57:37Z) - An Analysis of the Effects of Decoding Algorithms on Fairness in
Open-Ended Language Generation [77.44921096644698]
本稿では,復号化アルゴリズムがLMフェアネスに与える影響を体系的に分析する。
公平さ、多様性、品質のトレードオフを分析します。
論文 参考訳(メタデータ) (2022-10-07T21:33:34Z) - Diverse Text Generation via Variational Encoder-Decoder Models with
Gaussian Process Priors [21.71928935339393]
高品質なテキストを生成するための新しい潜在構造変数モデルを提案する。
具体的には、決定論的エンコーダの隠蔽状態をランダムな文脈変数にマッピングする関数を導入する。
ガウス過程の学習課題に対処するために,効率的な変分推論手法を提案する。
論文 参考訳(メタデータ) (2022-04-04T04:09:15Z) - Massive-scale Decoding for Text Generation using Lattices [34.2658286826597]
多数の生成オプションを符号化する格子を構成するための探索アルゴリズムを提案する。
我々のアルゴリズムは、文法的かつ高品質な数百から数千の多様な選択肢を1つの線形サイズの格子に符号化している。
論文 参考訳(メタデータ) (2021-12-14T18:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。