論文の概要: Feature-Refined Unsupervised Model for Loanword Detection
- arxiv url: http://arxiv.org/abs/2508.17923v1
- Date: Mon, 25 Aug 2025 11:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.755596
- Title: Feature-Refined Unsupervised Model for Loanword Detection
- Title(参考訳): 単語検出のための特徴修正非教師付きモデル
- Authors: Promise Dodzi Kpoglu,
- Abstract要約: 本稿では,ある言語から別の言語に借用された単語を抽出する,教師なしの手法を提案する。
我々のモデルは、ネイティブと借用語の両方を処理するために、言語内部の情報にのみ依存する。
Indo-Europeanの標準言語6言語からのデータセットから借用語を分離する作業について,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an unsupervised method for detecting loanwords i.e., words borrowed from one language into another. While prior work has primarily relied on language-external information to identify loanwords, such approaches can introduce circularity and constraints into the historical linguistics workflow. In contrast, our model relies solely on language-internal information to process both native and borrowed words in monolingual and multilingual wordlists. By extracting pertinent linguistic features, scoring them, and mapping them probabilistically, we iteratively refine initial results by identifying and generalizing from emerging patterns until convergence. This hybrid approach leverages both linguistic and statistical cues to guide the discovery process. We evaluate our method on the task of isolating loanwords in datasets from six standard Indo-European languages: English, German, French, Italian, Spanish, and Portuguese. Experimental results demonstrate that our model outperforms baseline methods, with strong performance gains observed when scaling to cross-linguistic data.
- Abstract(参考訳): 本稿では,ある言語から別の言語に借用された単語を抽出する,教師なしの手法を提案する。
従来の研究は主に、ローン語を識別するための言語外情報に依存してきたが、そのようなアプローチは、歴史的言語学のワークフローに円度と制約を導入することができる。
対照的に、本モデルは言語内情報にのみ依存し、モノリンガル語とマルチリンガル語の両方の単語を処理します。
関係言語の特徴を抽出し, 評価し, 確率的にマッピングすることにより, 出現パターンから収束までを同定し, 一般化することにより, 初期結果を反復的に洗練する。
このハイブリッドアプローチは、言語的および統計的手法の両方を活用して発見プロセスを導く。
インド・ヨーロッパ標準言語(英語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語)のデータセットから借用語を分離する作業について,本手法の評価を行った。
実験結果から,我々のモデルは,言語間データのスケーリングにおいて,高い性能向上を達成し,ベースライン法よりも優れた性能を示した。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - From Isolates to Families: Using Neural Networks for Automated Language Affiliation [9.182884165239996]
歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に複雑なワークフローを用いて行われる。
多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトを開発するための新たな道を開くのに役立つだろう。
本研究では,1000言語以上の言語から得られた語彙データと文法データを用いて,個々の言語を家族に分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:25:32Z) - Distilling Monolingual and Crosslingual Word-in-Context Representations [18.87665111304974]
本研究では,単言語と言語間の両方の設定において,事前学習した言語モデルから文脈における単語の意味表現を除去する手法を提案する。
本手法では,事前学習したモデルのコーパスやパラメータの更新は不要である。
本手法は,事前学習したモデルの異なる隠れ層の出力を自己注意を用いて組み合わせることから学習する。
論文 参考訳(メタデータ) (2024-09-13T11:10:16Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。