論文の概要: In2x at WMT25 Translation Task
- arxiv url: http://arxiv.org/abs/2508.14472v1
- Date: Wed, 20 Aug 2025 06:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.366682
- Title: In2x at WMT25 Translation Task
- Title(参考訳): WMT25翻訳タスクにおけるIn2x
- Authors: Lei Pang, Hanyi Mao, Quanjia Xiao, HaiXiao Liu, Xiangyi Li,
- Abstract要約: 本稿では、WMT25 General Machine Translation Shared TaskのためのIn2x研究チームによるオープンシステム提案について述べる。
本論文は日本語関連翻訳タスクに着目し,大規模言語モデル(LLM)を他の言語に拡張するための一般化可能なパラダイムを探究する。
- 参考スコア(独自算出の注目度): 0.27413698548600435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the open-system submission by the In2x research team for the WMT25 General Machine Translation Shared Task. Our submission focuses on Japanese-related translation tasks, aiming to explore a generalizable paradigm for extending large language models (LLMs) to other languages. This paradigm encompasses aspects such as data construction methods and reward model design. The ultimate goal is to enable large language model systems to achieve exceptional performance in low-resource or less commonly spoken languages.
- Abstract(参考訳): 本稿では、WMT25 General Machine Translation Shared TaskのためのIn2x研究チームによるオープンシステム提案について述べる。
本論文は日本語関連翻訳タスクに着目し,大規模言語モデル(LLM)を他の言語に拡張するための一般化可能なパラダイムを探究する。
このパラダイムは、データ構築方法や報酬モデル設計といった側面を含む。
最終的なゴールは、大規模な言語モデルシステムが低リソースまたはあまり一般的でない言語で例外的な性能を達成できるようにすることである。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - HausaNLP at SemEval-2025 Task 2: Entity-Aware Fine-tuning vs. Prompt Engineering in Entity-Aware Machine Translation [2.17880235420183]
本稿では,エンティティ対応機械翻訳(EA-MT)における共有タスクであるSemEval 2025 Task 2について述べる。
このタスクの目的は、英語の文をターゲット言語に正確に翻訳できる翻訳モデルを開発することである。
本稿では、我々が採用したさまざまなシステムについて述べ、その結果を詳述し、実験から得られた洞察について議論する。
論文 参考訳(メタデータ) (2025-03-25T14:29:43Z) - Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。
GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-02-04T16:57:03Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。