論文の概要: Language Generation in the Limit: Noise, Loss, and Feedback
- arxiv url: http://arxiv.org/abs/2507.15319v1
- Date: Mon, 21 Jul 2025 07:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.298923
- Title: Language Generation in the Limit: Noise, Loss, and Feedback
- Title(参考訳): 限界における言語生成:ノイズ、損失、フィードバック
- Authors: Yannan Bai, Debmalya Panigrahi, Ian Zhang,
- Abstract要約: 一様生成可能なコレクションの有限和が極限において生成可能であることを示し、非一様生成に対して同じことが真であるかどうかを問う。
均一および非一様生成に対するこれらのモデルの等価性を示し、非一様雑音発生のキャラクタリゼーションを提供する。
- 参考スコア(独自算出の注目度): 10.280148603465697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kleinberg and Mullainathan (2024) recently proposed a formal framework called language generation in the limit and showed that given a sequence of example strings from an unknown target language drawn from any countable collection, an algorithm can correctly generate unseen strings from the target language within finite time. This notion was further refined by Li, Raman, and Tewari (2024), who defined stricter categories of non-uniform and uniform generation. They showed that a finite union of uniformly generatable collections is generatable in the limit, and asked if the same is true for non-uniform generation. We begin by resolving the question in the negative: we give a uniformly generatable collection and a non-uniformly generatable collection whose union is not generatable in the limit. We then use facets of this construction to further our understanding of several variants of language generation. The first two, generation with noise and without samples, were introduced by Raman and Raman (2025) and Li, Raman, and Tewari (2024) respectively. We show the equivalence of these models for uniform and non-uniform generation, and provide a characterization of non-uniform noisy generation. The former paper asked if there is any separation between noisy and non-noisy generation in the limit -- we show that such a separation exists even with a single noisy string. Finally, we study the framework of generation with feedback, introduced by Charikar and Pabbaraju (2025), where the algorithm is strengthened by allowing it to ask membership queries. We show finite queries add no power, but infinite queries yield a strictly more powerful model. In summary, the results in this paper resolve the union-closedness of language generation in the limit, and leverage those techniques (and others) to give precise characterizations for natural variants that incorporate noise, loss, and feedback.
- Abstract(参考訳): Kleinberg と Mullainathan (2024) は、最近言語生成と呼ばれる形式的なフレームワークを提案し、任意の可算コレクションから引き出された未知のターゲット言語からのサンプル文字列列が与えられた場合、アルゴリズムは、対象言語から有限時間以内に正しく未知の文字列を生成することができることを示した。
この概念は Li, Raman, and Tewari (2024) によってさらに洗練され、非一様および一様生成のより厳密な圏を定義した。
彼らは、一様生成可能な集合の有限和が極限において生成可能であることを示し、非一様生成に対して同じことが真であるかどうかを問うた。
我々は、この問題を否定的に解決することから始めます。我々は、一様に生成可能なコレクションと、その極限において生成可能な結合を持たない一様でないコレクションを与えます。
次に、この構築のファセットを使用して、言語生成のいくつかの変種についてより深く理解します。
最初の2つはノイズとサンプルのない世代で、それぞれRamanとRaman(2025年)、Li、Raman、Tewari(2024年)によって導入された。
均一および非一様生成に対するこれらのモデルの等価性を示し、非一様雑音発生のキャラクタリゼーションを提供する。
以前の論文では、この極限にノイズ生成と非ノイズ生成の分離があるかどうかを問うが、そのような分離は単一のノイズ弦でも存在することを示す。
最後に,Charikar と Pabbaraju (2025) が導入したフィードバックによる生成の枠組みについて検討する。
有限なクエリはパワーを加味しないが、無限のクエリはより強力なモデルを生み出す。
要約して,本論文の結果は,言語生成の結束性の限界を解消し,これらの手法(その他)を活用して,雑音,損失,フィードバックを組み込んだ自然変種を正確に評価する。
関連論文リスト
- On Union-Closedness of Language Generation [48.36356615217017]
Kleinberg と Mullainathan によるモデルで,Li,Raman,Tewari によって拡張された言語生成について検討する。
我々の結果は、生成可能なクラスや不均一に生成可能なクラスの有限和を証明することによって、Li と al. の2つの開問題を解決する。
提案手法は,言語生成の進展領域に独立した関心を持つ可能性のある,新たな対角化の議論とともに,注意深く構築されたクラスを利用する。
論文 参考訳(メタデータ) (2025-06-23T13:42:25Z) - Representative Language Generation [4.601683217376771]
表現生成」は、生成モデルにおける多様性とバイアスの懸念に対処するために拡張される。
ある種の条件下では、数え切れないほど無限の仮説クラスと群の集合の実現可能性を示す。
より多様で代表的な生成モデルを開発するための厳密な基盤を提供する。
論文 参考訳(メタデータ) (2025-05-27T23:02:54Z) - On Characterizations for Language Generation: Interplay of Hallucinations, Breadth, and Stability [16.30681257128492]
[KM24] は、その極限における任意の可算言語コレクションから生成するアルゴリズムである。
近年の研究では、広さの異なる概念を導入し、広さの世代が可能であるかを探求している。
以上の結果から,安定性が要求される場合には,多くの既存概念による生成が等しく困難になることが示唆された。
論文 参考訳(メタデータ) (2024-12-24T16:24:43Z) - Exploring Facets of Language Generation in the Limit [10.18252143035175]
任意の可算言語コレクションは、その極限において非一様生成の強い特性を持つ生成子を持つことを示す。
我々は,[KM24]の生成アルゴリズムにおける妥当性と幅の緊張関係を,徹底的な生成の定義を導入して定式化する。
また,包括的生成が可能な言語コレクションの正確な特徴付けも提供する。
論文 参考訳(メタデータ) (2024-11-22T22:13:40Z) - On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse [16.30681257128492]
未知の言語からのサンプルを考えると、言語モデルはトレーニングで見えない有効な文字列を生成するべきである。
そうでなければ、無効な文字列を出力することは「幻覚」を構成し、全範囲のキャプチャーに失敗すると「モード崩壊」につながる。
我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
論文 参考訳(メタデータ) (2024-11-14T18:06:55Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - The Stable Entropy Hypothesis and Entropy-Aware Decoding: An Analysis
and Algorithm for Robust Natural Language Generation [59.7381286976957]
通常、人間のような世代は狭く、ほぼ平らなエントロピーバンドの中にいる。
これらのエントロピー境界を尊重するエントロピー対応復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-14T02:02:33Z) - Generating Sequences by Learning to Self-Correct [64.0249217590888]
自己補正(Self-Correction)は、不完全な世代を反復的に修正する独立した修正器から不完全なベースジェネレータを分離する。
本稿では,3つの多種多様なタスクにおいて,自己補正がベースジェネレータを改善することを示す。
論文 参考訳(メタデータ) (2022-10-31T18:09:51Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。