論文の概要: Agnostic Language Identification and Generation
- arxiv url: http://arxiv.org/abs/2601.23258v1
- Date: Fri, 30 Jan 2026 18:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.612083
- Title: Agnostic Language Identification and Generation
- Title(参考訳): 言語識別と生成
- Authors: Mikael Møller Høgsgaard, Chirag Pabbaraju,
- Abstract要約: 言語識別と生成に関する最近の研究は、厳密な統計率を確立している。
我々は、この実現可能性の仮定を完全に緩和し、入力データの分布に制限を加えない。
- 参考スコア(独自算出の注目度): 11.67370706056905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on language identification and generation have established tight statistical rates at which these tasks can be achieved. These works typically operate under a strong realizability assumption: that the input data is drawn from an unknown distribution necessarily supported on some language in a given collection. In this work, we relax this assumption of realizability entirely, and impose no restrictions on the distribution of the input data. We propose objectives to study both language identification and generation in this more general "agnostic" setup. Across both problems, we obtain novel interesting characterizations and nearly tight rates.
- Abstract(参考訳): 言語識別と生成に関する最近の研究は、これらの課題を達成できる厳密な統計率を確立している。
入力データは、与えられたコレクション内のある言語で必然的にサポートされている未知の分布から引き出される。
本研究では、この実現可能性の仮定を完全に緩和し、入力データの分布に制限を加えない。
本稿では, 言語識別と生成の両面を, より一般的な「認識的」な設定で研究する目的を提案する。
どちらの問題にもよるが、我々は興味深い特徴とほぼ厳密なレートを得る。
関連論文リスト
- The Syntactic Acceptability Dataset (Preview): A Resource for Machine Learning and Linguistic Analysis of English [0.0]
本稿では,Syntactic Acceptabilityデータセットのプレビューを紹介する。
データセットは、構文談話から1000の英語シーケンスから構成される。
予備的な形式であっても、このデータセットは一般にアクセス可能なものとして最大である。
論文 参考訳(メタデータ) (2025-06-22T18:03:49Z) - Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing? [3.8073142980733]
ニューラルネットワーク翻訳で使用されるアルゴリズムは、ほとんどの入力タイプに有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。
我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調べるために,一連の実験を行った。
我々の最終的な目標は、出力の統計特性の分布に一様性を課さない代替手段を開発することである。
論文 参考訳(メタデータ) (2024-09-15T01:06:07Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。