論文の概要: Winning with Less for Low Resource Languages: Advantage of Cross-Lingual English_Persian Argument Mining Model over LLM Augmentation
- arxiv url: http://arxiv.org/abs/2511.20872v1
- Date: Tue, 25 Nov 2025 21:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.874665
- Title: Winning with Less for Low Resource Languages: Advantage of Cross-Lingual English_Persian Argument Mining Model over LLM Augmentation
- Title(参考訳): 低資源言語への勝利--Lingual English_Persian Argument Mining Model による LLM 拡張
- Authors: Ali Jahan, Masood Ghayoomi, Annette Hautli-Janisz,
- Abstract要約: 本稿では,低リソース言語における議論マイニングのための言語間アプローチを活用することを目的とする。
我々は、高リソース言語として英語、低リソース言語としてペルシア語でモデルを検証した。
- 参考スコア(独自算出の注目度): 0.12744523252873352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Argument mining is a subfield of natural language processing to identify and extract the argument components, like premises and conclusions, within a text and to recognize the relations between them. It reveals the logical structure of texts to be used in tasks like knowledge extraction. This paper aims at utilizing a cross-lingual approach to argument mining for low-resource languages, by constructing three training scenarios. We examine the models on English, as a high-resource language, and Persian, as a low-resource language. To this end, we evaluate the models based on the English Microtext corpus \citep{PeldszusStede2015}, and its parallel Persian translation. The learning scenarios are as follow: (i) zero-shot transfer, where the model is trained solely with the English data, (ii) English-only training enhanced by synthetic examples generated by Large Language Models (LLMs), and (iii) a cross-lingual model that combines the original English data with manually translated Persian sentences. The zero-shot transfer model attains F1 scores of 50.2\% on the English test set and 50.7\% on the Persian test set. LLM-based augmentation model improves the performance up to 59.2\% on English and 69.3\% on Persian. The cross-lingual model, trained on both languages but evaluated solely on the Persian test set, surpasses the LLM-based variant, by achieving a F1 of 74.8\%. Results indicate that a lightweight cross-lingual blend can outperform considerably the more resource-intensive augmentation pipelines, and it offers a practical pathway for the argument mining task to overcome data resource shortage on low-resource languages.
- Abstract(参考訳): 引数マイニング(Argument mining)は、自然言語処理のサブフィールドであり、前提や結論などの引数コンポーネントをテキスト内で識別し、抽出し、それらの関係を認識する。
これは、知識抽出のようなタスクで使われるテキストの論理構造を明らかにする。
本稿では,3つの学習シナリオを構築することにより,低リソース言語における議論マイニングの言語間アプローチを活用することを目的とする。
我々は、高リソース言語として英語、低リソース言語としてペルシア語でモデルを検証した。
この目的のために、英文Microtext corpus \citep{PeldszusStede2015} に基づくモデルの評価を行い、その並列ペルシア語翻訳を行った。
学習シナリオは以下の通りです。
(i)ゼロショット転送で、そのモデルは英語データのみで訓練される。
二 大規模言語モデル(LLM)による合成例により強化された英語のみの訓練
(iii)原文の英語データと手書きのペルシア語文を結合した言語間モデル。
ゼロショット転送モデルは、英語のテストセットで50.2\%、ペルシャテストセットで50.7\%となる。
LLMベースの拡張モデルでは、英語では59.2\%、ペルシア語では69.3\%まで性能が向上している。
両言語で訓練されているが、ペルシャ語のテストセットでのみ評価される言語横断モデルは、74.8\%のF1を達成してLLMベースの変種を超えた。
その結果、軽量な言語間ブレンドは、リソース集約的な拡張パイプラインよりもかなり優れており、低リソース言語におけるデータリソース不足を克服するための議論マイニングタスクの実践的な経路を提供する。
関連論文リスト
- Prompt, Translate, Fine-Tune, Re-Initialize, or Instruction-Tune? Adapting LLMs for In-Context Learning in Low-Resource Languages [6.780441755361993]
この研究は、5つの多様なターゲット言語、3つのベースLLM、7つの下流タスク、4,100GPUトレーニング時間(9,900以上のTFLOP)にまたがる。
以上の結果から,数発のプロンプトと翻訳テストの設定は勾配に基づく適応法よりも優れる傾向が示唆された。
我々の知る限り、この研究は、列車計算と考慮された適応手法の数に関して、低リソース言語における文脈内学習における最大の研究である。
論文 参考訳(メタデータ) (2025-06-23T23:22:11Z) - Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation [36.92567530333872]
我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。
我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-17T23:18:06Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。