論文の概要: Unsupervised Separation of Native and Loanwords for Malayalam and Telugu
- arxiv url: http://arxiv.org/abs/2002.05527v1
- Date: Wed, 12 Feb 2020 04:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:22:57.280492
- Title: Unsupervised Separation of Native and Loanwords for Malayalam and Telugu
- Title(参考訳): マラヤラム語とテルグ語の母語と借用語の教師なし分離
- Authors: Sridhama Prakhya, Deepak P
- Abstract要約: ある言語からの単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで文字化された形で現れる。
この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。
本稿では,アグリニティブ・ドラヴィダ語からの単語の大規模なデータセットから,借用語を自動的かつ教師なしの方法で識別するタスクに対処する。
- 参考スコア(独自算出の注目度): 3.4925763160992402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quite often, words from one language are adopted within a different language
without translation; these words appear in transliterated form in text written
in the latter language. This phenomenon is particularly widespread within
Indian languages where many words are loaned from English. In this paper, we
address the task of identifying loanwords automatically and in an unsupervised
manner, from large datasets of words from agglutinative Dravidian languages. We
target two specific languages from the Dravidian family, viz., Malayalam and
Telugu. Based on familiarity with the languages, we outline an observation that
native words in both these languages tend to be characterized by a much more
versatile stem - stem being a shorthand to denote the subword sequence formed
by the first few characters of the word - than words that are loaned from other
languages. We harness this observation to build an objective function and an
iterative optimization formulation to optimize for it, yielding a scoring of
each word's nativeness in the process. Through an extensive empirical analysis
over real-world datasets from both Malayalam and Telugu, we illustrate the
effectiveness of our method in quantifying nativeness effectively over
available baselines for the task.
- Abstract(参考訳): しばしば、ある言語の単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで翻訳された形で現れる。
この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。
本稿では,凝集性ドラビダ語の単語の大規模データセットから,借用語を自動かつ教師なしで識別する作業について述べる。
私たちはドラヴィダ語族、Viz.、マラヤラム、Teluguの2つの特定の言語をターゲットにしています。
これらの言語との親和性に基づいて,これら両方の言語の母語は,他の言語から借用された単語よりも,単語の最初の数文字で形成された副単語列を表す略語であるstemという,より汎用的な語幹によって特徴づけられる傾向があることを概説する。
この観察を客観的な関数の構築と最適化のための反復最適化の定式化に活用し,各単語のネイティブ性のスコア付けを行う。
マラヤラムとテルグの両地域の実世界のデータセットに対する広範な実証分析を通じて,本手法の有効性について考察した。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Crowdsourcing Lexical Diversity [7.569845058082537]
本稿では,レキシコンのバイアス低減のための新しいクラウドソーシング手法を提案する。
群衆労働者は2つの言語からの語彙を比較し、親族や食べ物といった語彙の多様性に富む領域に焦点を当てる。
食品関連用語に焦点をあてた2つのケーススタディに適用し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-10-30T15:45:09Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。