論文の概要: JGU Mainz's Submission to the WMT25 Shared Task on LLMs with Limited Resources for Slavic Languages: MT and QA
- arxiv url: http://arxiv.org/abs/2509.22490v1
- Date: Fri, 26 Sep 2025 15:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.553501
- Title: JGU Mainz's Submission to the WMT25 Shared Task on LLMs with Limited Resources for Slavic Languages: MT and QA
- Title(参考訳): JGU Mainz's Submission to the WMT25 Shared Task on LLMs with Limited Resources for Slavic Languages: MT and QA
- Authors: Hossain Shaikh Saadi, Minh Duc Bui, Mario Sanz-Guerrero, Katharina von der Wense,
- Abstract要約: パラメータ効率を考慮したQwen2.5-3B-Instructモデルについて検討した。
我々のパイプラインは、追加の翻訳と複数選択質問応答(QA)データを統合する。
実験により、我々のモデルは両方のタスクのベースラインより優れています。
- 参考スコア(独自算出の注目度): 15.068108667237746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the JGU Mainz submission to the WMT25 Shared Task on LLMs with Limited Resources for Slavic Languages: Machine Translation and Question Answering, focusing on Ukrainian, Upper Sorbian, and Lower Sorbian. For each language, we jointly fine-tune a Qwen2.5-3B-Instruct model for both tasks with parameter-efficient finetuning. Our pipeline integrates additional translation and multiple-choice question answering (QA) data. For Ukrainian QA, we further use retrieval-augmented generation. We also apply ensembling for QA in Upper and Lower Sorbian. Experiments show that our models outperform the baseline on both tasks.
- Abstract(参考訳): 本稿では,JGU Mainz による WMT25 Shared Task on LLMs with Limited Resources for Slavic Languages: Machine Translation and Question Answering の提出について述べる。
各言語に対して,パラメータ効率のよいQwen2.5-3B-インストラクトモデルを共同で微調整する。
我々のパイプラインは、追加の翻訳と複数選択質問応答(QA)データを統合する。
ウクライナのQAでは、さらに検索拡張世代を使用します。
また,上ソルビアンおよび下ソルビアンにおけるQAのアンサンブルも適用した。
実験により、我々のモデルは両方のタスクのベースラインより優れています。
関連論文リスト
- MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection [0.0]
本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。
我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
論文 参考訳(メタデータ) (2025-05-27T08:26:17Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs [6.822926897514793]
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
論文 参考訳(メタデータ) (2023-07-31T21:13:30Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。