論文の概要: Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages
- arxiv url: http://arxiv.org/abs/2602.02287v1
- Date: Mon, 02 Feb 2026 16:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.290126
- Title: Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages
- Title(参考訳): 制御生成下におけるLLM裁判官の言語間安定性:フィン・ユーグ言語からの証拠
- Authors: Isaac Chung, Linda Freienthal,
- Abstract要約: 大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
- 参考スコア(独自算出の注目度): 0.22009842278462158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual evaluation of large language models (LLMs) typically conflates two sources of variance: genuine model performance differences and measurement instability. We investigate evaluation reliability by holding generation conditions constant while varying target language. Using synthetic customer-support dialogues generated with identical parameters across Estonian, Finnish, and Hungarian, we test whether automatic metrics and LLM-as-a-judge scoring produce stable model rankings across these morphologically rich, related Finno-Ugric languages. With a small set of Estonian native speaker annotations as a reference point, we find systematic ranking instabilities: surface-level metrics (lexical diversity, surface and semantic similarity) maintain cross-language stability, but pragmatic judgments (coherence, instruction-following) exhibit rank inversions and near-zero correlations. Because generation is controlled, these inconsistencies reflect how judge scoring behaves differently across languages rather than true model differences. This controlled design provides a diagnostic probe: evaluation methods that fail to maintain stability under identical generation conditions signal transfer failure before deployment. Our findings suggest that zero-shot judge transfer is unreliable for discourse-level assessment in morphologically rich languages, motivating language-specific calibration against targeted human baselines. We release our controlled generation protocol, synthetic data, and evaluation framework to enable replication across language families at https://github.com/isaac-chung/cross-lingual-stability-judges.
- Abstract(参考訳): 大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
エストニア語、フィンランド語、ハンガリー語で同じパラメータで生成された合成顧客支援対話を用いて、これらの形態学的にリッチで関連するフィンノ・ウグリック言語に対して、自動メトリクスとLLM-as-a-judgeスコアが安定したモデルランキングを生成するかどうかを検証した。
表面レベルの指標(語彙の多様性、表面および意味的類似性)は言語間の安定性を維持するが、プラグマティックな判断(コヒーレンス、命令フォロー)はランクインバージョンとほぼゼロの相関を示す。
生成は制御されているため、これらの矛盾は、判断のスコアリングが真のモデルの違いよりも言語によって異なる振る舞いをする様子を反映している。
この制御された設計は、同じ生成条件下での安定性の維持に失敗した評価方法である診断プローブを提供する。
以上の結果から, ゼロショット・ジャッジ・トランスファーは, 形態学的に豊かな言語における談話レベルの評価には信頼性が低いことが示唆された。
我々は制御された生成プロトコル、合成データ、評価フレームワークをリリースし、https://github.com/isaac-chung/cross-lingual-stability-judgesで言語ファミリー間のレプリケーションを可能にします。
関連論文リスト
- Beyond a Single Reference: Training and Evaluation with Paraphrases in Sign Language Translation [1.9102169745315323]
ほとんどの手話翻訳(SLT)コーパスペアは、それぞれ1つの書き言葉参照で署名された発話である。
この制限はモデルトレーニングと評価の両方を制約します。
BLEUparaは、複数のパラフレーズ参照に対する翻訳を評価するBLEUの拡張である。
論文 参考訳(メタデータ) (2026-01-29T00:02:19Z) - Benchmarking Concept-Spilling Across Languages in LLMs [7.577675422356702]
大規模言語モデル(LLM)は言語間の優れた能力を示すが、他の言語からの表現に対する体系的なバイアスを示すことが多い。
本稿では,言語間の多文語をモデルがどう扱うかを測定することで,多言語意味的ロバスト性を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T19:28:26Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - Conditions for Catastrophic Forgetting in Multilingual Translation [24.10629800866219]
多言語微調整における破滅的忘れを誘発する条件を同定する。
モデルとデータサイズの間の相対的なスケールは、忘れる際の主要な決定要因であることを示す。
また, 言語間アライメントは, 忘れを軽減し, 未確認対象言語への肯定的な移動を促進することも示している。
論文 参考訳(メタデータ) (2025-10-22T12:54:00Z) - Does Language Model Understand Language? [1.0450509067356148]
自然言語の生成と理解の進歩にもかかわらず、LMは依然として粒度の細かい言語現象に苦慮している。
本研究では,英語とベンガル語の両方の難解な文脈において,SOTA言語モデルの評価を行う。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T21:09:09Z) - SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation [29.960223851833785]
我々は手話生成のための意味論的埋め込みに基づく評価指標SiLVERScoreを提案する。
PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペアのほぼ完全な識別を実現している。
論文 参考訳(メタデータ) (2025-09-04T00:58:43Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。