論文の概要: Density Measures for Language Generation
- arxiv url: http://arxiv.org/abs/2504.14370v1
- Date: Sat, 19 Apr 2025 18:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:02:11.103492
- Title: Density Measures for Language Generation
- Title(参考訳): 言語生成のための密度測定
- Authors: Jon Kleinberg, Fan Wei,
- Abstract要約: 言語生成アルゴリズムの妥当性と広さのトレードオフについて検討する。
限界における言語生成のための既存のアルゴリズムは、真の言語でゼロ密度を持つ出力セットを生成する。
しかしながら、出力が厳密に正の密度を持つ極限における言語生成のアルゴリズムが$K$であることを示す。
- 参考スコア(独自算出の注目度): 2.2872032473279065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent successes of large language models (LLMs) have led to a surge of theoretical research into language generation. A recent line of work proposes an abstract view, called language generation in the limit, where generation is seen as a game between an adversary and an algorithm: the adversary generates strings from an unknown language $K$, chosen from a countable collection of candidate languages, and after seeing a finite set of these strings, the algorithm must generate new strings from $K$ that it has not seen before. This formalism highlights a key tension: the trade-off between validity (the algorithm should only produce strings from the language) and breadth (it should be able to produce many strings from the language). This trade-off is central in applied language generation as well, where it appears as a balance between hallucination (generating invalid utterances) and mode collapse (generating only a restricted set of outputs). Despite its importance, this trade-off has been challenging to study quantitatively. We develop ways to quantify this trade-off by formalizing breadth using measures of density. Existing algorithms for language generation in the limit produce output sets that can have zero density in the true language, and this important failure of breadth might seem unavoidable. We show, however, that such a failure is not necessary: we provide an algorithm for language generation in the limit whose outputs have strictly positive density in $K$. We also study the internal representations built by these algorithms, specifically the sequence of hypothesized candidate languages they consider, and show that achieving the strongest form of breadth may require oscillating indefinitely between high- and low-density representations. Our analysis introduces a novel topology on language families, with notions of convergence and limit points playing a key role.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の成功により、言語生成に関する理論的研究が急増している。
敵は未知の言語から文字列を生成し、候補言語の可算コレクションから選択され、これらの文字列の有限セットを見た後、アルゴリズムは今まで見たことのない$K$から新しい文字列を生成する必要がある。
この形式主義は、妥当性(アルゴリズムは言語から文字列を生成すべき)と幅(言語から多くの文字列を生成できるべき)のトレードオフという重要な緊張を浮き彫りにする。
このトレードオフは応用言語生成においても中心であり、幻覚(無効な発話を生成する)とモード崩壊(限られた出力のみを生成する)のバランスとして現れる。
その重要性にもかかわらず、このトレードオフは定量的に研究することを困難にしてきた。
我々は、密度の尺度を用いて幅を形式化し、このトレードオフを定量化する方法を開発した。
限界における言語生成のための既存のアルゴリズムは、真の言語でゼロ密度を持つ出力セットを生成し、この重要な広さの失敗は避けられないように思える。
しかし、そのような失敗は必要ないことを示し、出力が厳密に正の密度を持つ極限において言語生成のためのアルゴリズムをK$で提供する。
また、これらのアルゴリズムによって構築される内部表現、特にそれらが考慮する仮説化された候補言語の列について検討し、最強の広さを達成するためには、高密度と低密度の表現の間で無期限に振動する必要があることを示す。
本分析では,収束点と限界点という概念が重要な役割を担っている言語族に関する新しいトポロジを紹介した。
関連論文リスト
- Exploring Facets of Language Generation in the Limit [10.18252143035175]
任意の可算言語コレクションは、その極限において非一様生成の強い特性を持つ生成子を持つことを示す。
我々は,[KM24]の生成アルゴリズムにおける妥当性と幅の緊張関係を,徹底的な生成の定義を導入して定式化する。
また,包括的生成が可能な言語コレクションの正確な特徴付けも提供する。
論文 参考訳(メタデータ) (2024-11-22T22:13:40Z) - On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse [16.30681257128492]
未知の言語からのサンプルを考えると、言語モデルはトレーニングで見えない有効な文字列を生成するべきである。
そうでなければ、無効な文字列を出力することは「幻覚」を構成し、全範囲のキャプチャーに失敗すると「モード崩壊」につながる。
我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
論文 参考訳(メタデータ) (2024-11-14T18:06:55Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Language Generation in the Limit [0.7787343335258782]
候補言語の可算リストに限って生成できるエージェントが存在することを示す。
これは、言語学習のよく研究されたモデルにおいて、ゴールドとアングルインによる否定的な結果と劇的に対照的である。
論文 参考訳(メタデータ) (2024-04-10T05:53:25Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Generating texts under constraint through discriminator-guided MCTS [1.3750624267664153]
判別器によって誘導される木探索プロセスとして制約付き世代を定式化する。
差別化器を用いて、LMを微調整するのではなく、この世代を導くことで、より微細かつ動的に制約を適用することができる。
提案手法は,言語モデルを調整することなく,制約付き生成の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-28T09:29:15Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Paraphrase Generation as Zero-Shot Multilingual Translation:
Disentangling Semantic Similarity from Lexical and Syntactic Diversity [11.564158965143418]
本稿では,入力に含まれるn-gramの生成を阻害する単純なパラフレーズ生成アルゴリズムを提案する。
一つの多言語NMTモデルから多くの言語でパラフレーズ生成が可能となる。
論文 参考訳(メタデータ) (2020-08-11T18:05:34Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。