論文の概要: Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG
- arxiv url: http://arxiv.org/abs/2406.13069v1
- Date: Tue, 18 Jun 2024 21:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:08:09.751825
- Title: Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG
- Title(参考訳): Rusty-DAWGを用いた言語モデルの$n$-Gramノベルティの評価
- Authors: William Merrill, Noah A. Smith, Yanai Elazar,
- Abstract要約: 本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
LM生成テキストの新規性を人文テキストと比較する。
より大きなLMとより制約のある復号法はどちらも新規性を低下させる。
- 参考スコア(独自算出の注目度): 57.14250086701313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are less frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
- Abstract(参考訳): 学習コーパスに対する言語モデル(LM)によるテキスト生成は,どの程度新規か?
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲を調査し,両者を評価した。
i) LM が完全トレーニングに$n$-gram を割り当てる確率
(ii)$n$-novelty, トレーニングデータに現れないLMによって生成される$n$-gram(任意の大きな$n$)の割合。
コーパス上の任意の長さの$n$-gramの探索を一定時間で行うために,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
我々は,LM生成テキストの新規性を人文テキストと比較し,Pythiaモデルに焦点をあてて,生成新規性に影響を与える要因を探究する。
我々は、$n > 4$の場合、LM生成テキストは、人間が書いたテキストよりも斬新ではないが、より小さな$n$に対しては、より斬新であることを発見した。
より大きなLMとより制約のある復号法はどちらも新規性を低下させる。
最後に、トレーニングデータの頻度が低い場合、LMが損失を減らして$n$-gramを完結することを示す。
全体として,本研究の結果から,LM生成テキストの新規性に影響を与える要因を明らかにし,さらに事前学習を目的としたRusty-DAWGをリリースする。
関連論文リスト
- Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。
我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文 参考訳(メタデータ) (2023-03-08T17:15:58Z) - Discovering Language Model Behaviors with Model-Written Evaluations [18.24267922379281]
言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
ここでは、LMによる評価を自動的に生成する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
論文 参考訳(メタデータ) (2022-12-19T05:13:52Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。