論文の概要: Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2510.04230v1
- Date: Sun, 05 Oct 2025 14:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.530621
- Title: Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought
- Title(参考訳): 言語ミキシング・オブ・サートを用いた多言語推論モデルの推進
- Authors: Guijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu,
- Abstract要約: 英語とターゲット言語を切り替える推論スキーマである**Language-Mixed CoT**を紹介する。
我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)でNinveモデル(4B-35B)を訓練する。
我々のベストモデル**KO-REAson-35B*は、平均スコア(64.0 pm 25)で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 23.847410628315544
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent frontier models employ long chain-of-thought reasoning to explore solution spaces in context and achieve stonger performance. While many works study distillation to build smaller yet capable models, most focus on English and little is known about language-specific reasoning. To bridge this gap, we first introduct **Language-Mixed CoT**, a reasoning schema that switches between English and a target language, using English as an anchor to excel in reasoning while minimizing translation artificats. As a Korean case study, we curate **Yi-Sang**: 5.79M native-Korean prompts from web Q&A, exams, STEM, and code; 3.7M long reasoning traces generated from Qwen3-32B; and a targeted 260k high-yield subset. We train ninve models (4B-35B) across six families (Qwen2.5, Llama-3.1, Gemma-3, etc). Our best model, **KO-REAson-35B**, achieves state-of-the-art performance, with the highest overall average score (64.0 \pm 25), ranking first on 5/9 benchmarks and second on the remainder. Samller and mid-sized models also benefit substantially, with an average improvement of +18.6 points across teh evaluated nine benchmarks. Ablations show **Language-Mixed CoT** is more effective than monolingual CoT, also resulting in cross-lingual and mult-modal performance gains. We release our data-curation pipeline, evaluation system, datasets, and models to advance research on language-specific reasoning. Data and model collection: https://huggingface.co/KOREAson.
- Abstract(参考訳): 最近のフロンティアモデルは長いチェーン・オブ・シークレットの推論を用いて、文脈における解空間を探索し、ストンガー性能を達成する。
多くの研究は蒸留を研究し、より小型で有能なモデルを構築しているが、ほとんどの研究は英語に重点を置いており、言語固有の推論についてはほとんど知られていない。
このギャップを埋めるために、最初は**Language-Mixed CoT*という、英語とターゲット言語を切り替える推論スキーマを導入しました。
韓国のケーススタディでは、Web Q&A、試験、STEM、コードからのネイティブ韓国のプロンプト***Yi-Sang*: 5.79万、Qwen3-32Bから生成された3.7万、ターゲットとする260万の高収率サブセットをキュレートする。
忍者モデル(4B-35B)を6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)で訓練する。
我々のベストモデル**KO-REAson-35B*は最先端のパフォーマンスを達成し、最高スコア(64.0 \pm 25)は5/9ベンチマークで1位、残りは2位である。
サンプルモデルと中型モデルも大幅に改善され、平均的な18.6ポイントの改善は9つのベンチマークで評価された。
アブレーションにより、**Language-Mixed CoT**はモノリンガル CoT よりも効果的であることが示され、結果として言語横断とマルチモーダルのパフォーマンスが向上する。
我々は、言語固有の推論の研究を進めるために、データキュレーションパイプライン、評価システム、データセット、モデルをリリースする。
データとモデル収集:https://huggingface.co/KOREAson.com
関連論文リスト
- mR3: Multilingual Rubric-Agnostic Reward Reasoning Models [16.953894896444403]
我々は,72言語で訓練された,多言語・ルックスに依存しない報酬推論モデルであるmR3を紹介する。
本稿では、高品質の報酬モデルを構築するための効果的な戦略とデータソースを特定するための訓練のためのデータとカリキュラムの選択について包括的に研究する。
提案手法は,多言語報酬モデルベンチマークにおける最先端のパフォーマンスを達成し,より大規模なモデルを上回るものである。
論文 参考訳(メタデータ) (2025-10-01T17:36:59Z) - LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation [2.9248916859490173]
マルチ言語視覚質問応答(VQA)タスクにおいて,最先端のLMMを評価するためのベンチマークを導入する。
データセットは、11言語と5つの社会的属性にまたがる、6,875のイメージテキストペアで構成されている。
Bias、Answer Relevancy、Faithfulnessの3つの主要な指標を用いてモデルを評価する。
論文 参考訳(メタデータ) (2025-07-09T20:45:04Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。
低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。
特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文 参考訳(メタデータ) (2024-03-26T09:31:55Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。