論文の概要: Are LLMs Good Text Diacritizers? An Arabic and Yorùbá Case Study
- arxiv url: http://arxiv.org/abs/2506.11602v1
- Date: Fri, 13 Jun 2025 09:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.730989
- Title: Are LLMs Good Text Diacritizers? An Arabic and Yorùbá Case Study
- Title(参考訳): LLMは良質なテキストダイアクリエーターか? : アラビア語とヨルバの事例研究
- Authors: Hawau Olamide Toyin, Samar M. Magdy, Hanan Aldarmaki,
- Abstract要約: アラビア語とヨルバ語の2言語において,大言語モデル(LLMs)によるテキストのダイアクリタイズの有効性について検討した。
サイズ,アクセシビリティ,言語カバレッジの異なる14のLSMを評価し,これらを6つの専門診断モデルと比較した。
以上の結果から, アラビア語とヨルバ語の両方において, 多くの既成のLLMが, 専門的な発音モデルよりも優れていたが, より小さなモデルでは幻覚に悩まされていることが示唆された。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the effectiveness of large language models (LLMs) for text diacritization in two typologically distinct languages: Arabic and Yoruba. To enable a rigorous evaluation, we introduce a novel multilingual dataset MultiDiac, with diverse samples that capture a range of diacritic ambiguities. We evaluate 14 LLMs varying in size, accessibility, and language coverage, and benchmark them against 6 specialized diacritization models. Additionally, we fine-tune four small open-source models using LoRA for Yoruba. Our results show that many off-the-shelf LLMs outperform specialized diacritization models for both Arabic and Yoruba, but smaller models suffer from hallucinations. Fine-tuning on a small dataset can help improve diacritization performance and reduce hallucination rates.
- Abstract(参考訳): アラビア語とヨルバ語の2言語において,大言語モデル(LLMs)によるテキストのダイアクリタイズの有効性について検討した。
厳密な評価を可能にするために,多言語データセットであるMultiDiacを導入する。
サイズ,アクセシビリティ,言語カバレッジの異なる14のLSMを評価し,これらを6つの専門診断モデルと比較した。
また,Yoruba用のLoRAを用いて,4つのオープンソースモデルを微調整する。
以上の結果から, アラビア語とヨルバ語の両方において, 多くの既成のLLMが, 専門的な発音モデルよりも優れていたが, より小さなモデルでは幻覚に悩まされていることが示唆された。
小さなデータセットの微調整は、診断性能の向上と幻覚率の低減に役立つ。
関連論文リスト
- Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese [2.8161155726745237]
本稿では,低リソースレバノン方言の翻訳におけるLarge Language Models(LLMs)の有効性について検討する。
我々は,オープンソースのAya23モデルを用いて,基本,コントラスト,文法ヒントチューニングの3つの微調整手法を比較した。
実験では、小さなが文化的に認識されているレバノンのデータセットに基づいて微調整されたモデルが、大規模で非ネイティブなデータでトレーニングされたモデルよりも一貫して優れていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-30T18:33:53Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。
本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文 参考訳(メタデータ) (2025-01-12T16:17:25Z) - Localizing AI: Evaluating Open-Weight Language Models for Languages of Baltic States [1.1470070927586016]
ローカルにデプロイ可能なオープンウェイトLLMがより少ない言語をサポートする範囲を評価する。
Llama3, Gemma2, Phi, NeMoの多言語オープンウェイトモデルのサイズと精度について検討した。
これらのモデルは、最先端の翻訳性能に近づきつつも、少なくとも20語に1回は誤りのある語彙幻覚を起こす傾向にある。
論文 参考訳(メタデータ) (2025-01-07T17:24:17Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。