論文の概要: How Should We Model the Probability of a Language?
- arxiv url: http://arxiv.org/abs/2602.08951v1
- Date: Mon, 09 Feb 2026 17:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.407282
- Title: How Should We Model the Probability of a Language?
- Title(参考訳): 言語の確率をどうモデル化するか?
- Authors: Rasul Dent, Pedro Ortiz Suarez, Thibault Clérice, Benoît Sagot,
- Abstract要約: 世界中で話されている7000以上の言語のうち、商業的な言語識別システムは数百の書式しか確実に特定していない。
末尾語のカバレッジ向上には、ルート問題としてLIDを再考し、言語を局所的に妥当にするための環境基準を組み込む方法を開発する必要があると論じる。
- 参考スコア(独自算出の注目度): 15.469266551616728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Of the over 7,000 languages spoken in the world, commercial language identification (LID) systems only reliably identify a few hundred in written form. Research-grade systems extend this coverage under certain circumstances, but for most languages coverage remains patchy or nonexistent. This position paper argues that this situation is largely self-imposed. In particular, it arises from a persistent framing of LID as decontextualized text classification, which obscures the central role of prior probability estimation and is reinforced by institutional incentives that favor global, fixed-prior models. We argue that improving coverage for tail languages requires rethinking LID as a routing problem and developing principled ways to incorporate environmental cues that make languages locally plausible.
- Abstract(参考訳): 世界中で話されている7000以上の言語のうち、商業言語識別(LID)システムは数百の書式しか確実に識別していない。
研究グレードのシステムは、特定の状況下でこのカバー範囲を拡大するが、ほとんどの言語では、カバー範囲はあいまいか存在しない。
このポジション・ペーパーは、この状況は大半が自己像であると主張している。
特に、不連続テキスト分類としてのLIDの永続的なフレーミングは、事前の確率推定の中心的役割を曖昧にし、グローバルな固定された優先順位モデルを好む制度的なインセンティブによって補強される。
末尾語のカバレッジ向上には、ルート問題としてLIDを再考し、言語を局所的に妥当にするための環境基準を組み込むための原則的な方法を開発する必要があると論じる。
関連論文リスト
- Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering [48.913480244527925]
大規模言語モデル (LLM) はオープンドメイン質問応答 (ODQA) において大きな進歩を見せている。
ほとんどの評価は英語に焦点をあて、言語間で局所不変の回答を仮定する。
XLQAは局所感性多言語ODQA用に明示的に設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-08-22T07:00:13Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - SIGTYP 2021 Shared Task: Robust Spoken Language Identification [33.517587041976356]
多くの低リソースおよび絶滅危惧言語は、望まれるアプリケーションシナリオと異なるドメインを持つことができる。
今年の音声言語識別に関する共通課題は、このシナリオだけを調査することであった。
ドメインと話者のミスマッチは、95%以上の精度でドメイン内で実行できる現在の手法にとって非常に困難である。
論文 参考訳(メタデータ) (2021-06-07T18:12:27Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Improving Language Identification for Multilingual Speakers [12.032095029281441]
近年、音声言語識別(LID)技術は、大きく異なる言語を識別することから、非常に類似した言語や同じ言語の方言を識別することまで改善されてきた。
LID技術を利用する多くのシステムの主要なターゲットであるにもかかわらず、多言語話者の言語に対する差別がほとんど無視されてきた側面の1つである。
本研究では,ほとんどの言語の組み合わせにおいて,LIDシステムは高い平均精度を持ちながら,アクセント付き音声が存在する場合には,他の言語よりも大幅に性能が低いことを示す。
論文 参考訳(メタデータ) (2020-01-29T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。