論文の概要: Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages
- arxiv url: http://arxiv.org/abs/2604.27137v1
- Date: Wed, 29 Apr 2026 19:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.778358
- Title: Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages
- Title(参考訳): 大規模言語モデルにおける言語間応答の整合性:6言語間のクロードの評価
- Authors: Camelia Baluta,
- Abstract要約: 本稿では,言語間言語ラウンドテーブル・スキル・レベル記述に基づく体系的評価フレームワークを提案する。
私たちは、英語、フランス語、ルーマニア語、スペイン語、イタリア語、ドイツ語の6つの言語にまたがる、意味的に等価な12のプロンプトクラスタのバッテリーを管理します。
我々は、自動量測定と専門家のIRR質的評価を組み合わせた2層手法を用いて出力を分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a systematic evaluation framework grounded in the Interagency Language Roundtable (ILR) Skill Level Descriptions and applies it to Claude (Sonnet 4.6) across six languages: English, French, Romanian, Spanish, Italian, and German. We administer a battery of 12 semantically equivalent prompt clusters spanning ILR complexity levels 1 through 3+, collect 216 responses (12 prompts, 6 languages, 3 runs), and analyze outputs through a two-layer methodology combining automated quantitative metrics with expert ILR qualitative assessment. Quantitative analysis reveals that French responses are approximately 30% longer than German responses on identical prompts, and that creative and affective clusters show the highest cross-lingual surface divergence. Qualitative analysis, conducted by a six-language professional with 12 years of ILR/OPI assessment experience, identifies five cross-lingual variation patterns: systematic differences in pragmatic disambiguation strategies, aesthetic and literary tradition divergence in creative output, language-internal technical terminology norms, cultural calibration gaps evidenced by the absence of culture-specific content in favor of culturally neutralized templates, and language-specific institutional referral behavior in emotional support responses. We argue that ILR-informed expert judgment applied to LLM outputs constitutes a novel and underreported evaluation methodology that complements purely computational benchmarks, and that cross-lingual output variation in Claude is interpretable, domain-dependent, and consequential for equitable multilingual AI deployment.
- Abstract(参考訳): 本稿では,ILR (Interagency Language Roundtable) Skill Level Descriptions に基礎を置き,Claude (Sonnet 4.6) を英語,フランス語,ルーマニア語,スペイン語,イタリア語,ドイツ語の6言語に適用する。
ILRの複雑性レベル1から3+にまたがる12の意味論的に等価なプロンプトクラスタのバッテリーを運用し、216の応答(12のプロンプト、6の言語、3のラン)を収集し、専門家のILR定性評価と自動量測定を組み合わせた2層の方法論を用いて出力を分析する。
定量的分析により、フランスの反応は、同じプロンプトに対するドイツの反応よりも約30%長く、創造的で感情的なクラスターは、最も高い言語間表面の分岐を示すことが明らかになった。
12年間のIRR/OPI評価経験を持つ6言語の専門家による質的分析では、実践的曖昧化戦略の体系的相違、創造的アウトプットの美しさと文学的伝統の相違、言語内的技術的用語の規範、文化的に中和されたテンプレートに文化固有のコンテンツがないことによる文化的キャリブレーションのギャップ、感情的サポート応答における言語固有の制度的参照行動の5つの言語間変化パターンが特定されている。
我々は、LLM出力に適用されたIRRインフォームドエキスパート判断は、純粋に計算されたベンチマークを補完する新規で過度に報告された評価手法であり、Claudeにおける言語間出力の変動は、同値な多言語AIデプロイメントに対して解釈可能であり、ドメイン依存的であり、簡潔であると主張している。
関連論文リスト
- Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation [65.69228479949693]
Mixture-of-Experts (MoE)モデルは、言語間での大幅なパフォーマンス格差を示す。
我々は、ルーティングアイソレーションを利用して言語固有のエキスパートワークを特定し、適応するフレームワークRISE(Routing isolation-guided Subnetwork Enhancement)を提案する。
論文 参考訳(メタデータ) (2026-04-04T04:56:35Z) - Gradient-Informed Training for Low-Resource Multilingual Speech Translation [4.344398827902069]
本研究は,学習勾配情報をマイニングすることで,レイヤ固有の共有パターンを自動的に決定する手法を提案する。
提案手法では, 距離に基づく言語クラスタリング, キャパシティ割り当てのための自己/クロスタスク分散メトリクス, 共同分解の3つの異なる分析手法を用いる。
論文 参考訳(メタデータ) (2026-03-26T19:00:00Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - XLQA: A Benchmark for Locale-Aware Multilingual Open-Domain Question Answering [48.913480244527925]
大規模言語モデル (LLM) はオープンドメイン質問応答 (ODQA) において大きな進歩を見せている。
ほとんどの評価は英語に焦点をあて、言語間で局所不変の回答を仮定する。
XLQAは局所感性多言語ODQA用に明示的に設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-08-22T07:00:13Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries [0.0]
大規模言語モデル(LLM)における感情境界処理を評価するためのオープンソースのベンチマークと評価フレームワークを提案する。
パターンマッチング応答解析により,3つのLLMを適切な感情境界を維持する能力で評価した。
本フレームワークは, 直接拒絶, 謝罪, 説明, 偏向, 認知, 境界設定, 感情認識の7つの主要なパターンにまたがる応答を定量化する。
論文 参考訳(メタデータ) (2025-02-20T19:09:40Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。