論文の概要: Characterizations of Language Generation With Breadth
- arxiv url: http://arxiv.org/abs/2412.18530v1
- Date: Tue, 24 Dec 2024 16:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:57:00.706285
- Title: Characterizations of Language Generation With Breadth
- Title(参考訳): ブレンドによる言語生成の特性評価
- Authors: Alkis Kalavasis, Anay Mehrotra, Grigoris Velegkas,
- Abstract要約: Kleinberg と Mullainathan [KM24] が導入した言語生成の限界について検討する。
KM24は、制限の任意の可算言語コレクションから文字列を生成するアルゴリズムを提案した。
正確な幅を持つ世代はAngluinの同定条件によって特徴づけられることを示す。
- 参考スコア(独自算出の注目度): 16.30681257128492
- License:
- Abstract: We study language generation in the limit, introduced by Kleinberg and Mullainathan [KM24], building on classical works of Gold [Gol67] and Angluin [Ang79]. [KM24] proposed an algorithm that generates strings from any countable language collection in the limit. While their algorithm eventually outputs strings from the target language $K$, it sacrifices breadth, i.e., the ability to generate all strings in $K$. A key open question in [KM24] is whether this trade-off between consistency and breadth is inherrent. Recent works proposed different notions of consistent generation with breadth. Kalavasis, Mehrotra, and Velegkas [KVM24] introduced three definitions: generation with exact breadth, approximate breadth, and unambiguous generation. Concurrently and independently, Charikar and Pabbaraju [CP24a] proposed exhaustive generation. Both works examined when generation with these notions of breadth is possible. Building on [CP24a, KVM24], we fully characterize language generation for these notions and their natural combinations. For exact breadth, we provide an unconditional lower bound, removing a technical condition from [KVM24] and extending the result of [CP24a] that holds for specific collections of languages. We show that generation with exact breadth is characterized by Angluin's condition for identification. We further introduce a weaker version of Angluin's condition that tightly characterizes both approximate breadth and exhaustive generation, proving their equivalence. Additionally, we show that unambiguous generation is also characterized by Angluin's condition as a special case of a broader result. Finally, we strengthen [KVM24] by giving unconditional lower bounds for stable generators, showing that Angluin's condition characterizes the previous breadth notions for stable generators. This shows a separation between stable and unstable generation with approximate breadth.
- Abstract(参考訳): 我々は、Kleinberg と Mullainathan [KM24] によって導入された限界における言語生成を研究し、金[Gol67] と Angluin [Ang79] の古典的な作品に基づいて構築する。
[KM24] は,任意の可算言語コレクションから文字列を生成するアルゴリズムを提案した。
彼らのアルゴリズムは最終的にターゲット言語の$K$から文字列を出力するが、それは幅、すなわちすべての文字列を$K$で生成する能力を犠牲にする。
KM24]で重要な疑問は、一貫性と幅のトレードオフが不完全であるかどうかである。
最近の研究は、幅と一貫した生成という異なる概念を提唱している。
Kalavasis, Mehrotra, Velegkas [KVM24] は3つの定義を導入した。
同時に、チャリカーとパブバラジュ(CP24a)は徹底的な世代を提案した。
どちらの作品も、これらの幅の概念で生成可能かどうかを検証している。
CP24a, KVM24]に基づいて,これらの概念とそれらの自然な組み合わせについて,言語生成を完全に特徴付ける。
KVM24] から技術的な条件を取り除き、[CP24a] の結果を拡張し、特定の言語のコレクションに保持する。
正確な幅を持つ世代はAngluinの同定条件によって特徴づけられることを示す。
さらに、Angluinの条件のより弱いバージョンを導入し、近似した幅と網羅的な生成を強く特徴付け、それらの等価性を証明した。
さらに、より広い結果の特別な場合として、アングルンの条件により、曖昧な生成も特徴付けられることを示す。
最後に, 安定発生器に対して非条件下界を与えることにより[KVM24]を強化し, アングルンの条件が安定発生器に対する以前の幅の概念を特徴付けることを示す。
このことは、近似した幅で安定な生成と不安定な生成を分離していることを示している。
関連論文リスト
- Exploring Facets of Language Generation in the Limit [10.18252143035175]
任意の可算言語コレクションは、その極限において非一様生成の強い特性を持つ生成子を持つことを示す。
我々は,[KM24]の生成アルゴリズムにおける妥当性と幅の緊張関係を,徹底的な生成の定義を導入して定式化する。
また,包括的生成が可能な言語コレクションの正確な特徴付けも提供する。
論文 参考訳(メタデータ) (2024-11-22T22:13:40Z) - On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse [16.30681257128492]
未知の言語からのサンプルを考えると、言語モデルはトレーニングで見えない有効な文字列を生成するべきである。
そうでなければ、無効な文字列を出力することは「幻覚」を構成し、全範囲のキャプチャーに失敗すると「モード崩壊」につながる。
我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
論文 参考訳(メタデータ) (2024-11-14T18:06:55Z) - Return of Unconditional Generation: A Self-supervised Representation Generation Method [36.27605000082541]
非条件生成は、人間のアノテートラベルに頼ることなく、データの分散をモデル化する問題である。
本研究では,自己教師型エンコーダによって生成された表現空間における意味表現を生成することにより,このギャップを埋めることができることを示す。
このフレームワークはRepresentation-Conditioned Generation (RCG)と呼ばれ、ラベルを使わずに無条件生成問題に対する効果的な解決策を提供する。
論文 参考訳(メタデータ) (2023-12-06T18:59:31Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Combinatorial NLTS From the Overlap Gap Property [2.594420805049218]
Anshu, Breuckmann, and Nirkhe [ABN22] は、フリードマンとヘイスティングスによるいわゆる "No Low-Energy Trivial State conjecture" を肯定的に解決した。
この予想は、基底状態が浅い(対数深度)回路で生成できないn量子ビット系上の線形サイズの局所ハミルトニアンの存在を仮定した。
論文 参考訳(メタデータ) (2023-04-02T22:16:26Z) - A Measure-Theoretic Characterization of Tight Language Models [105.16477132329416]
病理学的には「確率質量」が無限列の集合に漏れることがある。
本稿では,言語モデリングの尺度論的扱いについて述べる。
多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。
論文 参考訳(メタデータ) (2022-12-20T18:17:11Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Hidden Cosets and Applications to Unclonable Cryptography [15.248351992500078]
隠れた部分空間状態から隠れたコセット状態への一般化について研究する(最初にアーロンソンとクリスティアン (STOC '12]) によって導入された)。
我々は、コセット状態といくつかの応用の無視不可能な性質を探求する。
論文 参考訳(メタデータ) (2021-07-12T19:04:01Z) - Language learnability in the limit for general metrics: a Gold-Angluin
result [91.3755431537592]
我々は、blum and blum (1975) によるniyogi の拡張版の定理を用いて、任意の計量における任意の言語族の極限における学習可能性に必要な条件を証明している。
言語ファミリーがさらにすべての有限言語を含むと仮定すると、同じ条件は限界における学習可能性にも十分になる。
論文 参考訳(メタデータ) (2021-03-24T13:11:09Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。