Fugu-MT 論文翻訳(概要): The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context

論文の概要: The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context

arxiv url: http://arxiv.org/abs/2504.02708v1
Date: Thu, 03 Apr 2025 15:46:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-11 16:05:43.313727
Title: The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context
Title（参考訳）: 隠れた安全空間:多言語文脈における優先度調整型LLMの理解
Authors: Nikhil Verma, Manasa Bharadwaj,
Abstract要約: アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
参考スコア（独自算出の注目度）: 0.9130277390156759
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Alignment tuning has enabled large language models to excel in reasoning, instruction-following, and minimizing harmful generations. However, despite their widespread deployment, these models exhibit a monolingual bias, raising concerns about the effectiveness of alignment across languages. Current alignment methods predominantly focus on English, leaving it unclear how alignment mechanism generalize to multilingual settings. To address this, we conduct a systematic analysis of distributional shifts in the embedding space of LLMs before and after alignment, uncovering its impact on model behavior across diverse languages. We leverage the alignment-induced separation in safety space as a quantitative tool to measure how alignment enforces safety constraints. Our study evaluates seven LLMs using balanced toxicity datasets and parallel text-detoxification benchmarks, revealing substantial disparities in the latent representation space between high-resource and low-resource languages. These findings underscore the need for language-specific fine-tuning to ensure fair, reliable and robust multilingual alignment. Our insights provide a foundation for developing truly safe multilingual LLMs, emphasizing the urgency of addressing alignment gaps in underrepresented languages.
Abstract（参考訳）: アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。しかし、広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。そこで本研究では,LLMの組込み空間における分布変化の系統的解析を行い,多言語間におけるモデル行動への影響を明らかにする。我々は、アライメントによって引き起こされる安全空間の分離を、アライメントが安全制約をいかに強制するかを測定する定量的ツールとして活用する。本研究は,高リソース言語と低リソース言語間の潜在表現空間に有意差があることを明らかにするために,バランス付き毒性データセットと並列テキストデトキシフィケーションベンチマークを用いて7つのLCMを評価した。これらの知見は、公平で信頼性があり、堅牢な多言語アライメントを保証するために、言語固有の微調整の必要性を浮き彫りにした。我々の洞察は、表現不足言語におけるアライメントギャップに対処する緊急性を強調し、真に安全な多言語LLMを開発するための基盤を提供する。

関連論文リスト

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs [12.334510055293535]
大きな言語モデル (LLMs) は英語のテキストに基づいて事前訓練されており、驚くべき多言語機能を示している。識別タスクのインスタンスレベルでのアライメントを定量化するために、言語間アライメントメトリクスを導入します。言語間アライメントの指標は言語レベルでのタスク精度と強く相関するが,サンプルレベルのアライメントは誤予測と正しく区別できないことが多い。
論文参考訳（メタデータ） (2025-04-13T00:01:22Z)
High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment [4.368725325557961]
ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。 XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
論文参考訳（メタデータ） (2025-02-16T19:44:01Z)
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [78.07201802874529]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-10-25T10:28:59Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文参考訳（メタデータ） (2024-09-20T20:53:22Z)
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文参考訳（メタデータ） (2024-07-10T03:26:15Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文参考訳（メタデータ） (2024-02-28T07:18:39Z)
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文参考訳（メタデータ） (2024-01-23T23:12:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。