論文の概要: Robust Language Identification for Romansh Varieties
- arxiv url: http://arxiv.org/abs/2603.15969v1
- Date: Mon, 16 Mar 2026 22:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.020812
- Title: Robust Language Identification for Romansh Varieties
- Title(参考訳): ロマンシュ品種のロバスト言語同定
- Authors: Charlotte Model, Sina Ahmadi, Jannis Vamvas,
- Abstract要約: ロマンシュ語には、イディオムと呼ばれるいくつかの地域品種があり、時には相互の知性に制限がある。
ロマンシュ LID はまた、いくつかのイディオムの要素を組み合わせた超地域多様体であるルマンチュ・グリシュン(Rumantsch Grischun)を認識できなければならないので、これは新しく興味深い分類問題である。
本稿では,SVM アプローチに基づくロマンシュイディオムの LID システムを提案する。
- 参考スコア(独自算出の注目度): 12.714323611050455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Romansh language has several regional varieties, called idioms, which sometimes have limited mutual intelligibility. Despite this linguistic diversity, there has been a lack of documented efforts to build a language identification (LID) system that can distinguish between these idioms. Since Romansh LID should also be able to recognize Rumantsch Grischun, a supra-regional variety that combines elements of several idioms, this makes for a novel and interesting classification problem. In this paper, we present a LID system for Romansh idioms based on an SVM approach. We evaluate our model on a newly curated benchmark across two domains and find that it reaches an average in-domain accuracy of 97%, enabling applications such as idiom-aware spell checking or machine translation. Our classifier is publicly available.
- Abstract(参考訳): ロマンシュ語には、イディオムと呼ばれるいくつかの地域品種があり、時には相互の知性に制限がある。
この言語多様性にもかかわらず、これらのイディオムを区別できる言語識別(LID)システムを構築するための文書化された努力が不足している。
ロマンシュ LID はまた、いくつかのイディオムの要素を組み合わせた超地域多様体であるルマンチュ・グリシュン(Rumantsch Grischun)を認識できなければならないので、これは新しく興味深い分類問題である。
本稿では,SVM アプローチに基づくロマンシュイディオムの LID システムを提案する。
2つのドメインにまたがる新しいベンチマークでモデルを評価した結果、ドメイン内の平均精度が97%に達し、イディオム対応のスペルチェックや機械翻訳などのアプリケーションを可能にした。
私たちの分類器は公開されています。
関連論文リスト
- Multi-label Scandinavian Language Identification (SLIDE) [5.708847945003293]
我々は,デンマーク語,ノルウェー語,ノルウェー語,ニノルスク語,スウェーデン語の多ラベル文レベルスカンジナビア語識別(LID)に焦点を当てた。
我々は,スカンディナヴィア言語識別と評価,SLIDE,手作業による複数ラベル評価データセット,および速度精度のトレードオフが変化するLIDモデルの組について述べる。
論文 参考訳(メタデータ) (2025-02-10T17:16:55Z) - Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン・セッティングにおいて6ドル・インドの言語のための辞書語を生成する新しいモデルを提案する。
我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。
8つの異なるドメインにまたがる6つのインド言語にまたがる75Kの翻訳ペアからなる新しいベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。