論文の概要: LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages
- arxiv url: http://arxiv.org/abs/2407.06331v2
- Date: Tue, 24 Jun 2025 10:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.24097
- Title: LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages
- Title(参考訳): LEVOS:サンスクリットと重複する語彙を活用してインド語の技術的語彙を生成する
- Authors: Karthika N J, Krishnakant Bhatt, Ganesh Ramakrishnan, Preethi Jyothi,
- Abstract要約: 技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。
提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。
我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
- 参考スコア(独自算出の注目度): 39.08623113730563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating technical terms into lexically similar, low-resource Indian languages remains a challenge due to limited parallel data and the complexity of linguistic structures. We propose a novel use-case of Sanskrit-based segments for linguistically informed translation of such terms, leveraging subword-level similarity and morphological alignment across related languages. Our approach uses character-level segmentation to identify meaningful subword units, facilitating more accurate and context-aware translation. To enable this, we utilize a Character-level Transformer model for Sanskrit Word Segmentation (CharSS), which addresses the complexities of sandhi and morpho-phonemic changes during segmentation. We observe consistent improvements in two experimental settings for technical term translation using Sanskrit-derived segments, averaging 8.46 and 6.79 chrF++ scores, respectively. Further, we conduct a post hoc human evaluation to verify the quality assessment of the translated technical terms using automated metrics. This work has important implications for the education field, especially in creating accessible, high-quality learning materials in Indian languages. By supporting the accurate and linguistically rooted translation of technical content, our approach facilitates inclusivity and aids in bridging the resource gap for learners in low-resource language communities.
- Abstract(参考訳): 技術的用語を語彙的に類似した低リソースのインドの言語に翻訳することは、限られた並列データと言語構造の複雑さのため、依然として課題である。
本研究では,関連言語間のサブワードレベルの類似性や形態的アライメントを利用したサンスクリット・セグメンテーションを用いた言語情報翻訳手法を提案する。
提案手法では,文字レベルのセグメンテーションを用いて意味のあるサブワード単位を識別し,より正確で文脈対応の翻訳を容易にする。
これを実現するために,サンスクリット単語セグメンテーション(CharSS)の文字レベル変換モデルを用いる。
我々は,サンスクリット由来のセグメントを平均8.46と6.79のchrF++スコアを用いて,技術用語翻訳のための2つの実験的な設定における一貫した改善を観察した。
さらに、自動メトリクスを用いて翻訳された技術用語の品質評価を検証するために、ポストホックな人的評価を行う。
この研究は教育分野、特にインドの言語で利用できる高品質な学習教材の作成に重要な意味を持つ。
技術内容の正確かつ言語的に根ざした翻訳を支援することにより,低リソース言語コミュニティにおける学習者の資源ギャップを埋めることを支援する。
関連論文リスト
- Graph-Assisted Culturally Adaptable Idiomatic Translation for Indic Languages [3.2498796510544636]
マルチワード式(MWE)とイディオムの翻訳には、ソース言語とターゲット言語の両方を深く理解する必要がある。
従来の静的知識グラフ(KG)とプロンプトベースのアプローチは、これらの複雑な関係を捉えるのに苦労する。
慣用的表現間の複雑なマッピングを学習する適応グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T03:42:16Z) - Splintering Nonconcatenative Languages for Better Tokenization [4.496923806879088]
本稿では,テキストを線形形式に再構成する前処理ステップであるSPLINTERを提案する。
我々は、ヘブライ語、アラビア語、マレー語におけるトークン語彙を評価する本質的な尺度を用いて、そのメリットを実証する。
論文 参考訳(メタデータ) (2025-03-18T17:11:09Z) - Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。
エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。
デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文 参考訳(メタデータ) (2024-08-02T17:10:12Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer [11.608920658638976]
サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。
我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。
TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
論文 参考訳(メタデータ) (2022-10-21T06:15:40Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。