論文の概要: Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages
- arxiv url: http://arxiv.org/abs/2512.02841v1
- Date: Tue, 02 Dec 2025 14:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.935348
- Title: Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages
- Title(参考訳): 言語横断的プロンプトステアビリティ:言語間における高精度かつロバストなLLM行動を目指して
- Authors: Lechen Zhang, Yusheng Zhou, Tolga Ergen, Lajanugen Logeswaran, Moontae Lee, David Jurgens,
- Abstract要約: システムプロンプトは、推論時に大きな言語モデル(LLM)を条件付けするための軽量で強力なメカニズムを提供する。
本稿では, 異なるシステムが, 正確な, 頑健な言語間行動に対して, ステアモデルをどのように促すかを包括的に検討する。
- 参考スコア(独自算出の注目度): 61.18573330164572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System prompts provide a lightweight yet powerful mechanism for conditioning large language models (LLMs) at inference time. While prior work has focused on English-only settings, real-world deployments benefit from having a single prompt to operate reliably across languages. This paper presents a comprehensive study of how different system prompts steer models toward accurate and robust cross-lingual behavior. We propose a unified four-dimensional evaluation framework to assess system prompts in multilingual environments. Through large-scale experiments on five languages, three LLMs, and three benchmarks, we uncover that certain prompt components, such as CoT, emotion, and scenario, correlate with robust multilingual behavior. We develop a prompt optimization framework for multilingual settings and show it can automatically discover prompts that improve all metrics by 5-10%. Finally, we analyze over 10 million reasoning units and find that more performant system prompts induce more structured and consistent reasoning patterns, while reducing unnecessary language-switching. Together, we highlight system prompt optimization as a scalable path to accurate and robust multilingual LLM behavior.
- Abstract(参考訳): システムプロンプトは、推論時に大きな言語モデル(LLM)を条件付けするための軽量で強力なメカニズムを提供する。
以前の作業では英語のみの設定に重点を置いていたが、実際のデプロイメントは、言語間で確実に運用するための単一のプロンプトを持つことのメリットがある。
本稿では, 異なるシステムが, 正確な, 頑健な言語間行動に対して, ステアモデルをどのように促すかを包括的に検討する。
多言語環境におけるシステムプロンプト評価のための統合された4次元評価フレームワークを提案する。
5つの言語、3つのLLM、3つのベンチマークに関する大規模な実験を通して、CoT、感情、シナリオといった特定の素早いコンポーネントが、堅牢な多言語動作と相関していることが判明した。
複数言語設定のためのプロンプト最適化フレームワークを開発し、すべての指標を改善するプロンプトを5~10%自動検出できることを示す。
最後に、1000万以上の推論ユニットを分析し、より高性能なシステムがより構造化され一貫性のある推論パターンを誘導し、不要な言語スイッチングを減らすことを発見した。
本稿では,システムプロンプトの最適化を,正確かつ堅牢な多言語LLM動作へのスケーラブルな経路として強調する。
関連論文リスト
- PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation [0.0]
大規模言語モデル(LLM)の多言語機能を強化するための新しいパラメータ効率フレームワークであるPolyPromptを紹介する。
提案手法では,各言語に対するトリガトークンの集合を勾配に基づく探索により学習し,入力クエリの言語を識別し,推論中にプロンプトにプリコンパイルされた対応するトリガトークンを選択する。
我々は20億のパラメータモデルで実験を行い、15の類型的および資源的多様言語にわたる世界MMLUベンチマークで評価を行い、ナイーブおよびトランスレーショナル・ピペリンベースラインと比較して3.7%-19.9%の精度向上を示した。
論文 参考訳(メタデータ) (2025-02-27T04:41:22Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。