論文の概要: SinFoS: A Parallel Dataset for Translating Sinhala Figures of Speech
- arxiv url: http://arxiv.org/abs/2602.09866v1
- Date: Mon, 09 Feb 2026 18:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.62767
- Title: SinFoS: A Parallel Dataset for Translating Sinhala Figures of Speech
- Title(参考訳): SinFoS: 音声のシンハラ図のパラレルデータセット
- Authors: Johan Sofalas, Dilushri Pavithra, Nevidu Jayatilleke, Ruvan Weerasinghe,
- Abstract要約: 文化的・言語的アノテーションを用いた 2,344 Sinhala 文字のコーパスについて紹介する。
データセット内の2種類のFOSを区別し,約92%の精度を達成するバイナリ分類器を開発した。
- 参考スコア(独自算出の注目度): 0.23332469289621785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figures of Speech (FoS) consist of multi-word phrases that are deeply intertwined with culture. While Neural Machine Translation (NMT) performs relatively well with the figurative expressions of high-resource languages, it often faces challenges when dealing with low-resource languages like Sinhala due to limited available data. To address this limitation, we introduce a corpus of 2,344 Sinhala figures of speech with cultural and cross-lingual annotations. We examine this dataset to classify the cultural origins of the figures of speech and to identify their cross-lingual equivalents. Additionally, we have developed a binary classifier to differentiate between two types of FOS in the dataset, achieving an accuracy rate of approximately 92%. We also evaluate the performance of existing LLMs on this dataset. Our findings reveal significant shortcomings in the current capabilities of LLMs, as these models often struggle to accurately convey idiomatic meanings. By making this dataset publicly available, we offer a crucial benchmark for future research in low-resource NLP and culturally aware machine translation.
- Abstract(参考訳): 音声の図形(FoS)は、文化と深く絡み合っている多語句からなる。
Neural Machine Translation(NMT)は、高リソース言語の比喩表現と比較的よく機能するが、Sinhalaのような低リソース言語を扱う場合、利用可能なデータが限られているため、しばしば課題に直面している。
この制限に対処するため,文化的・言語的アノテーションを付加した 2,344 Sinhala 文字のコーパスを導入する。
本研究では,このデータセットを用いて,話し手の文化的起源を分類し,その言語間等価性を同定する。
さらに、データセット内の2種類のFOSを区別し、約92%の精度を達成するバイナリ分類器を開発した。
また,本データセットを用いた既存LLMの性能評価を行った。
これらのモデルが慣用的意味を正確に伝達するのに苦慮していることから,LLMの現在の能力に重大な欠陥があることが判明した。
このデータセットを公開することにより、低リソースのNLPと文化的に認識された機械翻訳における将来の研究のための重要なベンチマークを提供する。
関連論文リスト
- FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model [11.423111315561151]
FG-CLIP 2(FG-CLIP 2)は、英語と中国語の微妙なアライメントを促進するために設計された視覚言語モデルである。
提案手法は, 領域テキストマッチングや長大キャプションモデリングなど, きめ細かい監督手法を利用する。
長文検索とバウンディングボックスの分類を特徴とする中国語マルチモーダル理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-13T02:32:07Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - Culturally-Nuanced Story Generation for Reasoning in Low-Resource Languages: The Case of Javanese and Sundanese [12.208154616426052]
大規模言語モデル(LLM)がジャワ語とスンダ語で文化的にニュアンスな物語を生成できるかどうかを検証する。
筆者らは,(1) LLM支援ストーリーに文化的手がかりを付与し,(2)インドネシアのベンチマークから機械翻訳を行い,(3)ネイティブなストーリーを提示する3つのデータ生成戦略を比較した。
各データセットのモデルを微調整し、分類と生成のための人為的なテストセットで評価する。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。