Fugu-MT 論文翻訳(概要): Optimizing Language Models for Crosslingual Knowledge Consistency

論文の概要: Optimizing Language Models for Crosslingual Knowledge Consistency

arxiv url: http://arxiv.org/abs/2603.04678v1
Date: Wed, 04 Mar 2026 23:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.007391
Title: Optimizing Language Models for Crosslingual Knowledge Consistency
Title（参考訳）: 言語モデルの言語間知識整合性に対する最適化
Authors: Tianyu Liu, Jirui Qi, Mrinmaya Sachan, Ryan Cotterell, Raquel Fernández, Arianna Bisazza,
Abstract要約: 大規模な言語モデルは、しばしば一貫性のない知識を示すことが知られている。これは、モデルが異なる言語で同様の質問をすることが多い、多言語シナリオにおいて特に問題となる。本研究では,この問題を構造化報酬関数を用いた強化学習を用いて緩和することができることを示す。
参考スコア（独自算出の注目度）: 90.86445137816942
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are known to often exhibit inconsistent knowledge. This is particularly problematic in multilingual scenarios, where models are likely to be asked similar questions in different languages, and inconsistent responses can undermine their reliability. In this work, we show that this issue can be mitigated using reinforcement learning with a structured reward function, which leads to an optimal policy with consistent crosslingual responses. We introduce Direct Consistency Optimization (DCO), a DPO-inspired method that requires no explicit reward model and is derived directly from the LLM itself. Comprehensive experiments show that DCO significantly improves crosslingual consistency across diverse LLMs and outperforms existing methods when training with samples of multiple languages, while complementing DPO when gold labels are available. Extra experiments demonstrate the effectiveness of DCO in bilingual settings, significant out-of-domain generalizability, and controllable alignment via direction hyperparameters. Taken together, these results establish DCO as a robust and efficient solution for improving knowledge consistency across languages in multilingual LLMs. All code, training scripts, and evaluation benchmarks are released at https://github.com/Betswish/ConsistencyRL.
Abstract（参考訳）: 大規模な言語モデルは、しばしば一貫性のない知識を示すことが知られている。これは、モデルが異なる言語で同様の質問をする可能性があり、一貫性のない応答が信頼性を損なう、多言語シナリオにおいて特に問題となる。本研究では,この問題を構造化された報酬関数を用いた強化学習を用いて緩和し,一貫した言語間応答を持つ最適ポリシーを導出することを示す。直接整合性最適化(DCO)は,明示的な報酬モデルを必要としないDPOにインスパイアされた手法であり,LLM自体から直接導出される。総合的な実験により、DCOは多様なLLM間での言語間整合性を著しく改善し、複数の言語のサンプルを用いてトレーニングを行う場合、既存の手法よりも優れ、ゴールドラベルが利用可能であればDPOを補完する。余分な実験では、二言語設定におけるDCOの有効性、ドメイン外の顕著な一般化性、方向ハイパーパラメータによる制御可能なアライメントが示される。これらの結果は、多言語LLMにおける言語間の知識整合性を改善するための堅牢で効率的なソリューションとして、DCOを確立している。すべてのコード、トレーニングスクリプト、評価ベンチマークはhttps://github.com/Betswish/ConsistencyRLで公開されている。

関連論文リスト

Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。 LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文参考訳（メタデータ） (2026-01-21T11:32:32Z)
Aligning LLMs for Multilingual Consistency in Enterprise Applications [39.24743635297897]
大規模言語モデル(LLM)は、グローバルなエンタープライズアプリケーションには信頼できないままである。細調整LDMのための実用的なバッチワイドアライメント戦略を提案する。このアプローチは、英語のパフォーマンス、モデル推論、検索品質を損なうことなく、英語以外の精度を最大23.9%向上させる。
論文参考訳（メタデータ） (2025-09-28T05:51:22Z)
CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention [9.76878200328024]
大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。 textitCausalAbstain は LLM が複数のフィードバック応答を利用するかどうかを判断するのに役立つ手法である。 textitCausalAbstainは有用なフィードバックを効果的に選択し、解釈可能性による禁忌決定を強化する。
論文参考訳（メタデータ） (2025-05-31T11:35:31Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。言語モデル(CALM)の言語間知識の整合性について検討する。我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文参考訳（メタデータ） (2025-01-30T16:15:38Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Bridging the Language Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は様々なドメインに革命をもたらしたが、それでも非ラテン語スクリプトや低リソース言語に苦戦している。本稿では,実行時にクエリ毎のプロンプト戦略,埋め込みモデル,LLMを最適化する,新しい動的学習手法を提案する。提案手法では,事前学習モデルに比べて10～15%の言語性能向上と4倍のゲインを達成できた。
論文参考訳（メタデータ） (2023-05-28T14:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。