論文の概要: Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck
- arxiv url: http://arxiv.org/abs/2603.10351v1
- Date: Wed, 11 Mar 2026 02:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.755234
- Title: Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck
- Title(参考訳): 多言語LLM-as-a-Judgeにおけるアンタングル情報を用いた翻訳バイアスの緩和
- Authors: Hongbin Zhang, Kehai Chen, Xuefen Bai, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は多言語評価の標準となっているが、厳密な体系的翻訳バイアスを示す。
このバイアスは (i) 英語との潜在多様体アライメントと (ii) 言語間予測可能性との急激な相関に起因している。
このバイアスを軽減するために、我々は、最小限に十分な判断クリティカルな表現を学習する堅牢な微調整フレームワークであるDIBJudgeを提案する。
- 参考スコア(独自算出の注目度): 37.780081880731096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become a standard for multilingual evaluation, yet they exhibit a severe systematic translationese bias. In this paper, translationese bias is characterized as LLMs systematically favoring machine-translated text over human-authored references, particularly in low-resource languages. We attribute this bias to spurious correlations with (i) latent manifold alignment with English and (ii) cross-lingual predictability. To mitigate this bias, we propose DIBJudge, a robust fine-tuning framework that learns a minimally sufficient, judgment-critical representation via variational information compression, while explicitly isolating spurious factors into the dedicated bias branch. Furthermore, we incorporate a cross-covariance penalty that explicitly suppresses statistical dependence between robust and bias representations, thereby encouraging effective disentanglement. Extensive evaluations on multilingual reward modeling benchmarks and a dedicated translationese bias evaluation suite demonstrate that the proposed DIBJudge consistently outperforms strong baselines and substantially mitigates translationese bias.
- Abstract(参考訳): 大規模言語モデル(LLM)は多言語評価の標準となっているが、厳密な体系的翻訳バイアスを示す。
本稿では,低リソース言語における機械翻訳テキストよりも,機械翻訳テキストを体系的に優先するLLMとして,翻訳バイアスを特徴付ける。
我々はこの偏見が突発的な相関によるものとみなす。
(一)英語及び英語に付随する潜在多様体
(ii)言語間予測可能性。
このバイアスを緩和するために、我々はDIBJudgeという頑健な微調整フレームワークを提案し、これは変動情報圧縮によって最小限に十分な判断クリティカルな表現を学習すると同時に、突発的因子を専用バイアスブランチに明示的に分離する。
さらに、ロバスト表現とバイアス表現の統計的依存を明示的に抑制し、効果的に絡み合うことを奨励する相互共分散ペナルティを組み込んだ。
多言語報酬モデルベンチマークと専用翻訳バイアス評価スイートの大規模な評価は、提案したDIBJudgeが強いベースラインを一貫して上回り、翻訳バイアスを大幅に軽減していることを示している。
関連論文リスト
- Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文 参考訳(メタデータ) (2026-02-16T14:05:59Z) - BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models [3.643198597030366]
本稿では,出力レベル(外部)バイアスの定量化を目的とした,オープンソースのモデルに依存しない評価フレームワークであるBiasLabを紹介する。
この枠組みは、人口統計学、文化学、政治学、地政学などの様々なバイアス軸の評価をサポートする。
論文 参考訳(メタデータ) (2026-01-11T11:07:46Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。