論文の概要: CM-Align: Consistency-based Multilingual Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.08541v2
- Date: Mon, 15 Sep 2025 06:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.970672
- Title: CM-Align: Consistency-based Multilingual Alignment for Large Language Models
- Title(参考訳): CM-Align:大規模言語モデルのための一貫性に基づく多言語アライメント
- Authors: Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: 高品質な多言語嗜好データを構築するための一貫性に基づくデータ手法を提案する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
- 参考スコア(独自算出の注目度): 84.19366314925593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language models (LLMs) generally show a significant performance gap in alignment between English and other languages. To bridge this gap, existing research typically leverages the model's responses in English as a reference to select the best/worst responses in other languages, which are then used for Direct Preference Optimization (DPO) training. However, we argue that there are two limitations in the current methods that result in noisy multilingual preference data and further limited alignment performance: 1) Not all English responses are of high quality, and using a response with low quality may mislead the alignment for other languages. 2) Current methods usually use biased or heuristic approaches to construct multilingual preference pairs. To address these limitations, we design a consistency-based data selection method to construct high-quality multilingual preference data for improving multilingual alignment (CM-Align). Specifically, our method includes two parts: consistency-guided English reference selection and cross-lingual consistency-based multilingual preference data construction. Experimental results on three LLMs and three common tasks demonstrate the effectiveness and superiority of our method, which further indicates the necessity of constructing high-quality preference data.
- Abstract(参考訳): 現在の大きな言語モデル(LLM)は一般的に、英語と他の言語とのアライメントにおいて、顕著なパフォーマンス差を示している。
このギャップを埋めるために、既存の研究は典型的には、他の言語でベスト/ワースト応答を選択するための参照として、英語のモデルの応答を利用しており、これは直接選好最適化(DPO)訓練に使用される。
しかし、現在の手法にはノイズの多い多言語嗜好データと、さらなるアライメント性能の制限が2つあると論じる。
1)全ての英語の応答は高品質であり、低品質の応答を使用すると、他の言語のアライメントを誤解させる可能性がある。
2) 現行の手法では, 偏りやヒューリスティックな手法を用いて多言語的選好ペアを構築する。
これらの制約に対処するために,多言語アライメント(CM-Align)を改善するために,高品質な多言語嗜好データを構築するための一貫性に基づくデータ選択法を設計する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
3つのLCMと3つの共通タスクの実験結果から,提案手法の有効性と優位性を示し,高品質な嗜好データの構築の必要性が示唆された。
関連論文リスト
- MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining [27.952041404675846]
高品質な英語データ品質の信号を17のターゲット言語に対して単一のレーダに転送するフレームワークであるMuRatingを紹介した。
MuRatingは、ペア比較を通じて複数の英語の「レーダ」を集約し、統一された文書品質スコアを学習する。
その後、翻訳を通じてこれらの判断を投影し、モノリンガル、クロスランガル、およびパラレルテキストペア上で多言語評価器を訓練する。
論文 参考訳(メタデータ) (2025-07-02T15:11:12Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.1576728251478]
提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。
2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。
論文 参考訳(メタデータ) (2025-03-06T17:33:01Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。