論文の概要: Model-Based Minimum Bayes Risk Decoding for Text Generation
- arxiv url: http://arxiv.org/abs/2311.05263v2
- Date: Wed, 12 Jun 2024 01:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:33:02.606686
- Title: Model-Based Minimum Bayes Risk Decoding for Text Generation
- Title(参考訳): テキスト生成のためのモデルベース最小ベイズリスクデコード
- Authors: Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe,
- Abstract要約: 最小ベイズリスク(MBR)デコーディングは、ビームサーチデコーディングの強力な代替手段であることが示されている。
テキスト生成タスクにおけるモンテカルロ推定よりもモデルに基づく推定の方が有望であることを示す。
- 参考スコア(独自算出の注目度): 7.442545018959533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum Bayes Risk (MBR) decoding has been shown to be a powerful alternative to beam search decoding in a variety of text generation tasks. MBR decoding selects a hypothesis from a pool of hypotheses that has the least expected risk under a probability model according to a given utility function. Since it is impractical to compute the expected risk exactly over all possible hypotheses, two approximations are commonly used in MBR. First, it integrates over a sampled set of hypotheses rather than over all possible hypotheses. Second, it estimates the probability of each hypothesis using a Monte Carlo estimator. While the first approximation is necessary to make it computationally feasible, the second is not essential since we typically have access to the model probability at inference time. We propose Model-Based MBR (MBMBR), a variant of MBR that uses the model probability itself as the estimate of the probability distribution instead of the Monte Carlo estimate. We show analytically and empirically that the model-based estimate is more promising than the Monte Carlo estimate in text generation tasks. Our experiments show that MBMBR outperforms MBR in several text generation tasks, both with encoder-decoder models and with large language models.
- Abstract(参考訳): 最小ベイズリスク(MBR)デコーディングは、テキスト生成タスクにおけるビームサーチデコーディングの強力な代替手段であることが示されている。
MBR復号法は、与えられた効用関数に従って確率モデルの下で最小のリスクを持つ仮説のプールから仮説を選択する。
予想されるリスクを全ての仮説で正確に計算することは不可能であるため、MBRでは2つの近似が一般的に用いられる。
まず、全ての仮説ではなく、一組の仮説をまとめて統合する。
第二に、モンテカルロ推定器を用いて各仮説の確率を推定する。
第1の近似は計算可能となるために必要であるが、第2の近似は通常、推論時にモデル確率にアクセスするため、必須ではない。
MBR のモデルベース MBR (MBMBR) は,モデル確率自体をモンテカルロ推定の代わりに確率分布の推定値として用いる。
テキスト生成タスクにおけるモンテカルロ推定よりもモデルに基づく推定の方が有望であることを示す。
実験の結果,MBMBRはエンコーダデコーダモデルと大規模言語モデルの両方で,テキスト生成タスクにおいてMBRよりも優れていた。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - mbrs: A Library for Minimum Bayes Risk Decoding [27.207891251898904]
mbrsは最小ベイズリスク(MBR)デコーディングのライブラリである。
MBRはテキスト生成タスクの決定ルールであり、従来の最大値(MAP)復号よりも優れている。
私たちはMITライセンスのオープンソースプロジェクトとしてmbrsを公開しました。
論文 参考訳(メタデータ) (2024-08-08T02:28:32Z) - Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation [30.323103270892734]
ニューラルマシン翻訳(NMT)の一般的な手法である、最大後部復号法は、推定後部確率を最大化することを目的としている。
最小ベイズリスク(MBR)復号法は、最も期待されているユーティリティで仮説を求める方法を提供する。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は、そのような正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - On the True Distribution Approximation of Minimum Bayes-Risk Decoding [3.409873726183299]
最小ベイズリスク(MBR)復号化はテキスト生成において新たな注目を集めている。
従来の研究では,サンプリング法によって性能が変化することが報告されている。
本研究は異常検出を用いて近似の度合いを計測する。
論文 参考訳(メタデータ) (2024-03-31T17:47:22Z) - Faster Minimum Bayes Risk Decoding with Confidence-based Pruning [8.709382540743391]
本稿では,最小ベイズリスク(MBR)復号化アルゴリズムについて述べる。
提案手法では, サンプルが少なく, 実用機能への呼び出し回数を標準のMBRに比べて大幅に削減する。
実用・評価指標として chrF++ と COMET を用いた3つの言語対の実験において,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-25T03:38:14Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Approximate Bayesian inference from noisy likelihoods with Gaussian
process emulated MCMC [0.24275655667345403]
ガウス過程(GP)を用いた対数様関数をモデル化する。
主な方法論的革新は、正確なメトロポリス・ハスティングス(MH)サンプリングが行う進歩をエミュレートするためにこのモデルを適用することである。
得られた近似サンプリング器は概念的には単純で、試料効率が高い。
論文 参考訳(メタデータ) (2021-04-08T17:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。