論文の概要: Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.11632v1
- Date: Tue, 12 May 2026 06:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.646405
- Title: Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
- Title(参考訳): アライメント・アズ・パラメータ最適化による多言語対実生成の強化
- Authors: Yilong Wang, Qianli Wang, Bohao Chu, Yihong Liu, Jing Yang, Simon Ostermann,
- Abstract要約: 多言語SCE生成に直接優先度最適化を適用する優先アライメントフレームワークであるMacroを紹介する。
マクロは最小限の劣化を伴わずに,チェーンオブソートベースライン平均で12.55%の妥当性向上を図っている。
提案手法は,多言語モデル説明の強化に期待できる方向として,好みの最適化に重点を置いている。
- 参考スコア(独自算出の注目度): 14.36297254909447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-generated counterfactual explanations (SCEs) are minimally modified inputs (minimality) generated by large language models (LLMs) that flip their own predictions (validity), offering a causally grounded approach to unraveling black-box LLM behavior. Yet extending them beyond English remains challenging: existing methods struggle to produce valid SCEs in non-dominant languages, and a persistent trade-off between validity and minimality undermines explanation quality. We introduce Macro, a preference alignment framework that applies Direct Preference Optimization (DPO) to multilingual SCE generation, using a composite scoring function to construct preference pairs that effectively translate the trade-off into measurable preference signals. Experiments across four LLMs and seven typologically diverse languages show that Macro improves validity by 12.55\% on average over the chain-of-thought baseline without degrading minimality, while avoiding the severe minimality violations of the translation-based baseline. Compared to supervised fine-tuning, Macro achieves superior performance on both metrics, confirming that explicit preference optimization is essential for balancing this trade-off. Further analyses reveal that Macro increases cross-lingual perturbation alignment and mitigates common generation errors. Our results highlight preference optimization as a promising direction for enhancing multilingual model explanations.
- Abstract(参考訳): 自己生成の反事実的説明(SCE)は、大きな言語モデル(LLM)が生成する最小限の変更された入力(最小限)であり、自身の予測(正当性)を反転させ、ブラックボックスのLCMの振る舞いを解明するための因果的に根拠づけられたアプローチを提供する。
既存のメソッドは、非支配言語で有効なSCEを生成するのに苦労しており、妥当性と最小性の間の永続的なトレードオフは、説明の質を損なう。
多言語SCE生成に直接優先度最適化(DPO)を適用した選好アライメントフレームワークであるMacroを導入し、合成スコアリング関数を用いて、トレードオフを測定可能な選好信号に効果的に変換する選好ペアを構築する。
4つのLLMと7つのタイプ的多様言語にわたる実験により、マクロは翻訳ベースラインの極小さを損なうことなく、チェーン・オブ・ソートベースラインに対して平均12.55\%の妥当性を向上することが示された。
教師付き微調整と比較して、Macroは両方のメトリクスで優れたパフォーマンスを達成し、このトレードオフのバランスをとる上で明確な優先順位最適化が不可欠であることを確認した。
さらなる分析により、マクロは言語間摂動アライメントを増大させ、共通生成誤差を緩和することが明らかとなった。
提案手法は,多言語モデル説明の強化に期待できる方向として,好みの最適化に重点を置いている。
関連論文リスト
- AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences [4.460583138505673]
優先順位最適化は、大きな言語モデルと人間の好みを合わせるのに使われ、通常はランク付けされた応答ペアを微調整する。
本稿では,DPO の優先ペアの固定処理を動的損失スケーリング機構に置き換える CAPO (Confidence-Aware Preference Optimization) を提案する。
CAPOは、多言語テキストでよく見られるノイズや低マージンの比較に頑健さを増す。
論文 参考訳(メタデータ) (2025-11-10T23:28:12Z) - Beyond Single-Reward: Multi-Pair, Multi-Perspective Preference Optimization for Machine Translation [44.04325848740683]
M2PO: マルチペア, マルチパースペクティブ・パラメータ最適化について紹介する。
我々のフレームワークは、より堅牢な信号を生成するマルチパースペクティブ報酬エンジンを統合している。
挑戦的なWMT21-22ベンチマークでは、M2POは既存の選好最適化手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-10-15T11:30:49Z) - Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [69.05600758833471]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文 参考訳(メタデータ) (2025-06-13T12:29:15Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。