論文の概要: On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse
- arxiv url: http://arxiv.org/abs/2411.09642v1
- Date: Thu, 14 Nov 2024 18:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:43.988045
- Title: On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse
- Title(参考訳): 言語生成の限界:幻覚とモード崩壊のトレードオフ
- Authors: Alkis Kalavasis, Anay Mehrotra, Grigoris Velegkas,
- Abstract要約: 未知の言語からのサンプルを考えると、言語モデルはトレーニングで見えない有効な文字列を生成するべきである。
そうでなければ、無効な文字列を出力することは「幻覚」を構成し、全範囲のキャプチャーに失敗すると「モード崩壊」につながる。
我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
- 参考スコア(独自算出の注目度): 16.30681257128492
- License:
- Abstract: Specifying all desirable properties of a language model is challenging, but certain requirements seem essential. Given samples from an unknown language, the trained model should produce valid strings not seen in training and be expressive enough to capture the language's full richness. Otherwise, outputting invalid strings constitutes "hallucination," and failing to capture the full range leads to "mode collapse." We ask if a language model can meet both requirements. We investigate this within a statistical language generation setting building on Gold and Angluin. Here, the model receives random samples from a distribution over an unknown language K, which belongs to a possibly infinite collection of languages. The goal is to generate unseen strings from K. We say the model generates from K with consistency and breadth if, as training size increases, its output converges to all unseen strings in K. Kleinberg and Mullainathan [KM24] asked if consistency and breadth in language generation are possible. We answer this negatively: for a large class of language models, including next-token prediction models, this is impossible for most collections of candidate languages. This contrasts with [KM24]'s result, showing consistent generation without breadth is possible for any countable collection of languages. Our finding highlights that generation with breadth fundamentally differs from generation without breadth. As a byproduct, we establish near-tight bounds on the number of samples needed for generation with or without breadth. Finally, our results offer hope: consistent generation with breadth is achievable for any countable collection of languages when negative examples (strings outside K) are available alongside positive ones. This suggests that post-training feedback, which encodes negative examples, can be crucial in reducing hallucinations while limiting mode collapse.
- Abstract(参考訳): 言語モデルの望ましい特性をすべて定義することは難しいが、特定の要件は不可欠に思える。
未知の言語からのサンプルを考えると、訓練されたモデルはトレーニングで見えない有効な文字列を生成し、言語の完全な豊かさを捉えるのに十分な表現力を持つべきである。
そうでなければ、無効な文字列を出力することは「ハロシン化」を構成し、完全な範囲の取得に失敗すると「モード崩壊」につながる。
言語モデルが両方の要件を満たすことができるかどうかを問う。
我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
ここで、モデルは未知の言語 K 上の分布からランダムなサンプルを受け取る。
トレーニングのサイズが大きくなると、その出力がK. Kleinberg と Mullainathan [KM24] のすべての未確認文字列に収束する。
次世代の予測モデルを含む多種多様な言語モデルでは、ほとんどの候補言語のコレクションでは不可能である。
これは[KM24]の結果とは対照的であり、任意の可算言語のコレクションに対して、幅のない一貫した生成が可能である。
我々の発見は、広さのある世代は、広さのない世代と根本的に異なることを強調している。
副生成物として, 生成に必要な試料数に対して, 幅の幅の有無で, ほぼ28境界を定めている。
最後に、我々の結果には希望がある: 正の例(K以外の文字列)が利用可能である場合、任意の可算言語の集合に対して、幅との一貫性のある生成が達成可能である。
このことは、ネガティブな例をエンコードするポストトレーニング後のフィードバックが、モード崩壊を制限しながら幻覚を減らすために重要であることを示唆している。
関連論文リスト
- A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Language Generation in the Limit [0.7787343335258782]
候補言語の可算リストに限って生成できるエージェントが存在することを示す。
これは、言語学習のよく研究されたモデルにおいて、ゴールドとアングルインによる否定的な結果と劇的に対照的である。
論文 参考訳(メタデータ) (2024-04-10T05:53:25Z) - A Measure-Theoretic Characterization of Tight Language Models [105.16477132329416]
病理学的には「確率質量」が無限列の集合に漏れることがある。
本稿では,言語モデリングの尺度論的扱いについて述べる。
多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。
論文 参考訳(メタデータ) (2022-12-20T18:17:11Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Are discrete units necessary for Spoken Language Modeling? [10.374092717909603]
音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。
音声言語モデリングの優れた結果を得るためには,離散化が不可欠であることを示す。
また、HuBERTのような個別のターゲットで訓練されたエンドツーエンドモデルは、擬似テキストで訓練された最良の言語モデルと同様の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-03-11T14:14:35Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。