論文の概要: A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation
- arxiv url: http://arxiv.org/abs/2009.07243v1
- Date: Tue, 15 Sep 2020 17:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:12:29.869030
- Title: A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation
- Title(参考訳): オープンエンド言語生成のためのサンプリングアルゴリズムの体系的評価
- Authors: Moin Nadeem, Tianxing He, Kyunghyun Cho, James Glass
- Abstract要約: 本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
- 参考スコア(独自算出の注目度): 71.31905141672529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the widely adopted ancestral sampling algorithms for
auto-regressive language models, which is not widely studied in the literature.
We use the quality-diversity (Q-D) trade-off to investigate three popular
sampling algorithms (top-k, nucleus and tempered sampling). We focus on the
task of open-ended language generation. We first show that the existing
sampling algorithms have similar performance. After carefully inspecting the
transformations defined by different sampling algorithms, we identify three key
properties that are shared among them: entropy reduction, order preservation,
and slope preservation. To validate the importance of the identified
properties, we design two sets of new sampling algorithms: one set in which
each algorithm satisfies all three properties, and one set in which each
algorithm violates at least one of the properties. We compare their performance
with existing sampling algorithms, and find that violating the identified
properties could lead to drastic performance degradation, as measured by the
Q-D trade-off. On the other hand, we find that the set of sampling algorithms
that satisfies these properties performs on par with the existing sampling
algorithms. Our data and code are available at
https://github.com/moinnadeem/characterizing-sampling-algorithms
- Abstract(参考訳): 本研究は,自己回帰言語モデルに広く採用されている祖先サンプリングアルゴリズムについて研究する。
品質多様性(Q-D)トレードオフを用いて,3つの一般的なサンプリングアルゴリズム(トップk,核,テンパレートサンプリング)について検討する。
オープンエンド言語生成の課題に焦点を当てる。
まず,既存のサンプリングアルゴリズムに類似した性能を示す。
異なるサンプリングアルゴリズムによって定義される変換を注意深く検査した結果,エントロピー低減,秩序保存,斜面保存の3つの特性を同定した。
同定された特性の重要性を検証するために,新たなサンプリングアルゴリズムを2セット設計した。1セットは各アルゴリズムが3つの特性を満たし,もう1セットは少なくともその特性の1つに違反する。
これらの性能を既存のサンプリングアルゴリズムと比較し,q-dトレードオフによって測定されたように,識別された特性に違反すると劇的な性能低下を引き起こす可能性があることを見出した。
一方,これらの特性を満たすサンプリングアルゴリズムのセットは,既存のサンプリングアルゴリズムと同等の性能を持つことがわかった。
私たちのデータとコードはhttps://github.com/moinnadeem/characterizing-sampling-algorithmsで利用可能です。
関連論文リスト
- A Modular Spatial Clustering Algorithm with Noise Specification [0.0]
細菌ファームアルゴリズムは、閉じた実験農場の細菌の成長にインスパイアされている。
他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。
論文 参考訳(メタデータ) (2023-09-18T18:05:06Z) - On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed
Bandits with Fixed Budget [53.99808986087965]
ベルヌーイ報奨を伴う二本腕包帯における固定予算によるベストアーム識別の問題について検討した。
我々は,アルゴリズムが各アームを等しくサンプリングするのと同様に,アルゴリズムが機能することはないことを証明した。
論文 参考訳(メタデータ) (2023-08-23T08:38:53Z) - Comparative study of subset selection methods for rapid prototyping of
3D object detection algorithms [0.0]
プロトタイピングオブジェクト検出アルゴリズムは、エネルギーと環境への影響の観点から、時間と費用がかかる。
このようなサブセットを選択するための3つのアルゴリズム(ランダムサンプリング、クラスごとのランダムサンプリング、および提案したMONSPeC)の比較を行う。
本研究は,基本的ランダムサンプリングよりも,クラスごとのランダムサンプリングとMONSPeCの有効性が優れていることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-30T11:09:20Z) - A Sequential Deep Learning Algorithm for Sampled Mixed-integer
Optimisation Problems [0.3867363075280544]
混合整数最適化問題に対する2つの効率的なアルゴリズムを導入,解析する。
両アルゴリズムが最適解に対して有限時間収束を示すことを示す。
3つの数値実験により,これらのアルゴリズムの有効性を定量的に確立する。
論文 参考訳(メタデータ) (2023-01-25T17:10:52Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - A multi-schematic classifier-independent oversampling approach for
imbalanced datasets [0.0]
従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
論文 参考訳(メタデータ) (2021-07-15T14:03:24Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A new heuristic algorithm for fast k-segmentation [0.0]
文献には$k$-segmentationの厳密で近似的な方法が存在する。
本稿では,既存の手法を改善するために,新しいアルゴリズムを提案する。
計算コストのごく一部で正確な手法と競合するアキュラシーを提供することを実証的に見出した。
論文 参考訳(メタデータ) (2020-09-02T04:50:17Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。