論文の概要: Disentangling Language Roles in Multilingual LLM Task Execution
- arxiv url: http://arxiv.org/abs/2605.27649v1
- Date: Tue, 26 May 2026 20:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.500662
- Title: Disentangling Language Roles in Multilingual LLM Task Execution
- Title(参考訳): 多言語LLMタスク実行における言語の役割の分散化
- Authors: Qishi Zhan, Minxuan Hu, Seoyeon Jang, Lei Zhao, Ziheng Chen, Man Liang, Xinyue Xiang, Jiaxin Liu, Guansu Wang, Liang He,
- Abstract要約: MTM-Benchは言語条件のタスク実行のためのベンチマークである。
27のトリプレットをすべて列挙し、セマンティック・リバーサル、最終状態抽出、言語純度にまたがるモデル毎に2,430のインスタンスを含む。
セマンティックな正当性,目標言語順守,制約満足度,汚染率,共同成功の指標を用いて,20のフロンティアとオープンウェイトLLMを評価した。
- 参考スコア(独自算出の注目度): 17.182371695349385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual LLMs are increasingly used when instruction, source content, and required response languages do not coincide. Existing benchmarks have expanded multilingual instruction-following evaluation, but they rarely isolate these three roles within a fully crossed design. We introduce MTM-Bench, a controlled benchmark for language-conditioned task execution in which each instance is defined by a triplet \((L_{\text{instr}}, L_{\text{content}}, L_{\text{resp}})\). Across English, Spanish, and Chinese, MTM-Bench enumerates all 27 triplets and contains 2{,}430 instances per model across semantic reversal, final-state extraction, and language purity with update realization. We evaluate 20 frontier and open-weight LLMs using decomposed metrics for semantic correctness, target-language adherence, constraint satisfaction, contamination ratio, and joint success, with scoring validated by a targeted human audit. The fully crossed design reveals that degradation is organized by the role a language occupies in the task structure, not merely by mismatch count. The response-language role is the dominant axis of variation, and a single response-slot mismatch accounts for most degradation. The response-only and full-mismatch comparison suggests that mismatch count is not a monotonic predictor of difficulty, with model-level ordering varying across systems. Task families fail through distinct channels, showing that semantic correctness alone does not capture reliable multilingual task execution.
- Abstract(参考訳): 命令、ソース内容、必要な応答言語が一致しない場合には、多言語 LLM がますます使われる。
既存のベンチマークでは、多言語による命令追従の評価が拡張されているが、これら3つの役割を完全に交差した設計で分離することは滅多にない。
MTM-Benchは、言語条件付きタスク実行のための制御されたベンチマークで、各インスタンスは三重項 \((L_{\text{instr}}, L_{\text{content}}, L_{\text{resp}})\) で定義される。
英語、スペイン語、中国語にまたがって、MTM-Benchは27のトリプル全てを列挙し、セマンティック・リバーサル、最終状態抽出、言語純度にまたがるモデル毎に2{,}430のインスタンスを含む。
本研究は, 意味的正当性, 目標言語順守性, 制約満足度, 汚染率, 共同成功度を, 対象の人間監査によって評価された評価値を用いて, 20のフロンティアとオープンウェイトLLMを評価した。
完全に交差した設計は、言語がタスク構造に占める役割によって、単にミスマッチ数によってではなく、分解が組織されることを示している。
応答言語の役割は変動の主軸であり、単一の応答スロットミスマッチがほとんどの劣化の原因である。
応答のみおよび全ミスマッチ比較は、ミスマッチ数が困難を単調に予測するものではなく、モデルレベルの順序はシステムによって異なることを示唆している。
タスクファミリは異なるチャネルを通して失敗し、セマンティックな正確性だけでは信頼できる多言語タスクの実行をキャプチャできないことを示す。
関連論文リスト
- Donors and Recipients: On Asymmetric Transfer Across Tasks and Languages with Parameter-Efficient Fine-Tuning [61.568735270400786]
大規模言語モデル(LLM)はタスクや言語間で強く機能する。
あるタスクや言語の改善が他のタスクや言語にどのように影響するか、それらの組み合わせはいまだに理解されていない。
論文 参考訳(メタデータ) (2025-11-17T13:41:31Z) - Multilingual vs Crosslingual Retrieval of Fact-Checked Claims: A Tale of Two Approaches [8.127643463046516]
マルチリンガルおよびクロスリンガルのパフォーマンスを改善するための戦略を検討する。
47言語におけるポストとクレームを含むデータセットに対するアプローチを評価する。
最も重要なことは、多言語性は多言語性よりも独自の特徴を持つセットアップであることが示される。
論文 参考訳(メタデータ) (2025-05-28T08:47:10Z) - Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。