Fugu-MT 論文翻訳(概要): Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG

論文の概要: Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG

arxiv url: http://arxiv.org/abs/2406.13069v1
Date: Tue, 18 Jun 2024 21:31:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 00:08:09.751825
Title: Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG
Title（参考訳）: Rusty-DAWGを用いた言語モデルの$n$-Gramノベルティの評価
Authors: William Merrill, Noah A. Smith, Yanai Elazar,
Abstract要約: 本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。 LM生成テキストの新規性を人文テキストと比較する。より大きなLMとより制約のある復号法はどちらも新規性を低下させる。
参考スコア（独自算出の注目度）: 57.14250086701313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are less frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
Abstract（参考訳）: 学習コーパスに対する言語モデル(LM)によるテキスト生成は,どの程度新規か? 本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲を調査し,両者を評価した。 i) LM が完全トレーニングに$n$-gram を割り当てる確率 (ii)$n$-novelty, トレーニングデータに現れないLMによって生成される$n$-gram(任意の大きな$n$)の割合。コーパス上の任意の長さの$n$-gramの探索を一定時間で行うために,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。我々は,LM生成テキストの新規性を人文テキストと比較し,Pythiaモデルに焦点をあてて,生成新規性に影響を与える要因を探究する。我々は、$n > 4$の場合、LM生成テキストは、人間が書いたテキストよりも斬新ではないが、より小さな$n$に対しては、より斬新であることを発見した。より大きなLMとより制約のある復号法はどちらも新規性を低下させる。最後に、トレーニングデータの頻度が低い場合、LMが損失を減らして$n$-gramを完結することを示す。全体として,本研究の結果から,LM生成テキストの新規性に影響を与える要因を明らかにし,さらに事前学習を目的としたRusty-DAWGをリリースする。

関連論文リスト

Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。 LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。テキスト長の増加に伴い,テストのI型およびII型エラーが指数関数的に減少することを示す。我々の研究は、有害または偽のLCM生成テキストの起源を確実に発見することを可能にし、新たなAI規制に対する誤った情報やコンプライアンスに対抗するのに役立ちます。
論文参考訳（メタデータ） (2025-01-04T23:51:43Z)
Theoretical Proof that Generated Text in the Corpus Leads to the Collapse of Auto-regressive Language Models [26.117724170912552]
本稿では,コーパス(World Wide Webなど)が生成したテキストを組み込むと,LM崩壊が発生するという理論的証拠を示す。我々は, LMトレーニングにおいて, 生成テキストの量が増加している現状について, 懸念を表明する。
論文参考訳（メタデータ） (2024-12-19T14:11:15Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文参考訳（メタデータ） (2024-01-30T19:03:49Z)
TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文参考訳（メタデータ） (2023-09-22T15:32:49Z)
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。 RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文参考訳（メタデータ） (2023-06-23T10:18:02Z)
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文参考訳（メタデータ） (2023-04-13T18:04:19Z)
Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文参考訳（メタデータ） (2023-03-08T17:15:58Z)
Discovering Language Model Behaviors with Model-Written Evaluations [18.24267922379281]
言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。ここでは、LMによる評価を自動的に生成する。我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
論文参考訳（メタデータ） (2022-12-19T05:13:52Z)
You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文参考訳（メタデータ） (2022-10-28T02:57:40Z)
Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文参考訳（メタデータ） (2022-10-26T02:42:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。