Fugu-MT 論文翻訳(概要): Exploring Facets of Language Generation in the Limit

論文の概要: Exploring Facets of Language Generation in the Limit

arxiv url: http://arxiv.org/abs/2411.15364v1
Date: Fri, 22 Nov 2024 22:13:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.37322
Title: Exploring Facets of Language Generation in the Limit
Title（参考訳）: 限界における言語生成の側面を探る
Authors: Moses Charikar, Chirag Pabbaraju,
Abstract要約: 任意の可算言語コレクションは、その極限において非一様生成の強い特性を持つ生成子を持つことを示す。我々は,[KM24]の生成アルゴリズムにおける妥当性と幅の緊張関係を,徹底的な生成の定義を導入して定式化する。以上の結果から,有効性と広さのトレードオフは,その限界における生成に固有であることが示唆された。
参考スコア（独自算出の注目度）: 10.18252143035175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent work of Kleinberg and Mullainathan [KM24] provides a concrete model for language generation in the limit: given a sequence of examples from an unknown target language, the goal is to generate new examples from the target language such that no incorrect examples are generated beyond some point. In sharp contrast to strong negative results for the closely related problem of language identification, they establish positive results for language generation in the limit for all countable collections of languages. Follow-up work by Raman and Tewari [RT24] studies bounds on the number of distinct inputs required by an algorithm before correct language generation is achieved -- namely, whether this is a constant for all languages in the collection (uniform generation) or a language-dependent constant (non-uniform generation). We show that every countable language collection has a generator which has the stronger property of non-uniform generation in the limit. However, while the generation algorithm of [KM24] can be implemented using membership queries, we show that any algorithm cannot non-uniformly generate even for collections of just two languages, using only membership queries. We also formalize the tension between validity and breadth in the generation algorithm of [KM24] by introducing a definition of exhaustive generation, and show a strong negative result for exhaustive generation. Our result shows that a tradeoff between validity and breadth is inherent for generation in the limit. Finally, inspired by algorithms that can choose to obtain feedback, we consider a model of uniform generation with feedback, completely characterizing language collections for which such uniform generation with feedback is possible in terms of a complexity measure of the collection.
Abstract（参考訳）: Kleinberg と Mullainathan [KM24] の最近の研究は、言語生成の具体的なモデルを提供しています。未知のターゲット言語からのサンプルのシーケンスを考慮すれば、ターゲット言語から新しいサンプルを生成することが目標です。言語識別の密接な問題に対する強い否定的な結果とは対照的に、全ての可算言語のコレクションに限って、言語生成の肯定的な結果を確立する。 Raman と Tewari [RT24] によるフォローアップの研究は、正しい言語生成が完了する前にアルゴリズムが要求する異なる入力数に依存する。任意の可算言語コレクションは、その極限において非一様生成の強い特性を持つ生成子を持つことを示す。しかしながら,[KM24] の生成アルゴリズムはメンバシップクエリを用いて実装できるが,任意のアルゴリズムがメンバシップクエリのみを使用して,たった2つの言語のコレクションであっても一様に生成できないことを示す。また,[KM24]の生成アルゴリズムにおける妥当性と幅の緊張関係を, 総生成の定義を導入して定式化し, 総生成に対して強い負の結果を示す。以上の結果から,有効性と広さのトレードオフは,その限界における生成に固有であることが示唆された。最後に,フィードバックを得るアルゴリズムに着想を得て,フィードバックを伴う一様生成モデルを考える。

関連論文リスト

Language Generation in the Limit: Noise, Loss, and Feedback [10.280148603465697]
一様生成可能なコレクションの有限和が極限において生成可能であることを示し、非一様生成に対して同じことが真であるかどうかを問う。均一および非一様生成に対するこれらのモデルの等価性を示し、非一様雑音発生のキャラクタリゼーションを提供する。
論文参考訳（メタデータ） (2025-07-21T07:18:04Z)
On Union-Closedness of Language Generation [48.36356615217017]
Kleinberg と Mullainathan によるモデルで,Li,Raman,Tewari によって拡張された言語生成について検討する。我々の結果は、生成可能なクラスや不均一に生成可能なクラスの有限和を証明することによって、Li と al. の2つの開問題を解決する。提案手法は,言語生成の進展領域に独立した関心を持つ可能性のある,新たな対角化の議論とともに,注意深く構築されたクラスを利用する。
論文参考訳（メタデータ） (2025-06-23T13:42:25Z)
Density Measures for Language Generation [2.2872032473279065]
言語生成アルゴリズムの妥当性と広さのトレードオフについて検討する。限界における言語生成のための既存のアルゴリズムは、真の言語でゼロ密度を持つ出力セットを生成する。しかしながら、出力が厳密に正の密度を持つ極限における言語生成のアルゴリズムが$K$であることを示す。
論文参考訳（メタデータ） (2025-04-19T18:08:18Z)
On Characterizations for Language Generation: Interplay of Hallucinations, Breadth, and Stability [16.30681257128492]
[KM24] は、その極限における任意の可算言語コレクションから生成するアルゴリズムである。近年の研究では、広さの異なる概念を導入し、広さの世代が可能であるかを探求している。以上の結果から,安定性が要求される場合には,多くの既存概念による生成が等しく困難になることが示唆された。
論文参考訳（メタデータ） (2024-12-24T16:24:43Z)
On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse [16.30681257128492]
未知の言語からのサンプルを考えると、言語モデルはトレーニングで見えない有効な文字列を生成するべきである。そうでなければ、無効な文字列を出力することは「幻覚」を構成し、全範囲のキャプチャーに失敗すると「モード崩壊」につながる。我々は,ゴールドとアングルインをベースとした統計的言語生成システムにおいて,これを検証した。
論文参考訳（メタデータ） (2024-11-14T18:06:55Z)
Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
Language Generation in the Limit [0.7787343335258782]
候補言語の可算リストに限って生成できるエージェントが存在することを示す。これは、言語学習のよく研究されたモデルにおいて、ゴールドとアングルインによる否定的な結果と劇的に対照的である。
論文参考訳（メタデータ） (2024-04-10T05:53:25Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Bridging the Gap Between Training and Inference of Bayesian Controllable Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。 BCLMは制御可能な言語生成において効率的であることが示されている。本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文参考訳（メタデータ） (2022-06-11T12:52:32Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。典型的なサンプリングでは,品質面での競争性能が期待できる。
論文参考訳（メタデータ） (2022-02-01T18:58:45Z)
Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文参考訳（メタデータ） (2020-11-10T22:47:14Z)
Toward Cross-Lingual Definition Generation for Language Learners [10.45755551957024]
我々は、様々な言語の単語に対して、英語で定義を生成することを提案する。モデルは、英語データセットでトレーニングされた後、他の言語に直接適用することができる。実験と手動解析により,我々のモデルは強い言語間移動能力を有することが示された。
論文参考訳（メタデータ） (2020-10-12T08:45:28Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。