Fugu-MT 論文翻訳(概要): The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

論文の概要: The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

arxiv url: http://arxiv.org/abs/2406.18682v1
Date: Wed, 26 Jun 2024 18:39:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 18:07:31.627092
Title: The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm
Title（参考訳）: 多言語アライメントプリズム:ハーム低減のためのグローバルおよびローカルな選好の調整
Authors: Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker,
Abstract要約: AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。我々は、グローバルとローカルの害を区別した、人間の注釈付きレッドチームプロンプトの最初のセットを異なる言語で収集する。汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。
参考スコア（独自算出の注目度）: 17.566947609534356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key concern with the concept of "alignment" is the implicit question of "alignment to what?". AI systems are increasingly used across the world, yet safety alignment is often focused on homogeneous monolingual settings. Additionally, preference training and safety measures often overfit to harms common in Western-centric datasets. Here, we explore the viability of different alignment approaches when balancing dual objectives: addressing and optimizing for a non-homogeneous set of languages and cultural preferences while minimizing both global and local harms. We collect the first set of human annotated red-teaming prompts in different languages distinguishing between global and local harm, which serve as a laboratory for understanding the reliability of alignment techniques when faced with preference distributions that are non-stationary across geographies and languages. While this setting is seldom covered by the literature to date, which primarily centers on English harm mitigation, it captures real-world interactions with AI systems around the world. We establish a new precedent for state-of-the-art alignment techniques across 6 languages with minimal degradation in general performance. Our work provides important insights into cross-lingual transfer and novel optimization approaches to safeguard AI systems designed to serve global populations.
Abstract（参考訳）: アライメント」の概念に関する重要な関心事は、「アライメントとは何か?」という暗黙の疑問である。 AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。さらに、好みのトレーニングや安全対策は、西洋中心のデータセットに共通する害に対して過度に適合することが多い。ここでは,両目的のバランスをとる際の異なるアライメントアプローチの実現可能性について考察する。グローバルとローカルの両方の害を最小限に抑えつつ,同種でない言語や文化的な嗜好に対処し,最適化する。我々は、グローバルとローカルの害を区別する異なる言語で、人間の注釈付きレッドチームプロンプトの最初のセットを収集し、地理的・言語にまたがる非定常的な好み分布に直面した際のアライメント手法の信頼性を理解する実験室として機能する。この設定は、主に英語の害軽減に焦点を当てた、これまでの文献ではほとんどカバーされていないが、世界中のAIシステムとの現実世界のインタラクションを捉えている。汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。我々の研究は、グローバルな人口に対応するように設計されたAIシステムを保護するために、言語間移動と新しい最適化アプローチに関する重要な洞察を提供する。

関連論文リスト

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages [8.667909336164465]
大規模言語モデル(LLM)がグローバル・サウスに展開されている。日々の使用には、低リソース言語、コードミキシング、文化的に特定の規範が含まれる。我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
論文参考訳（メタデータ） (2026-02-14T19:56:40Z)
When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文参考訳（メタデータ） (2026-01-30T11:23:01Z)
HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models [63.87966115136411]
HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
論文参考訳（メタデータ） (2025-11-27T16:24:53Z)
Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning [81.43257201833154]
言語やモダリティ間のアライメントを学習するための双方向命令関係推論およびアライニングフレームワークBi-IRRAを提案する。 Bi-IRRA内において、双方向暗黙的関係推論モジュールは、マスクされた画像とテキストの双方向予測を可能にする。提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
論文参考訳（メタデータ） (2025-10-20T16:01:11Z)
MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。 RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文参考訳（メタデータ） (2025-05-22T16:24:51Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文参考訳（メタデータ） (2025-04-03T15:46:46Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。 Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文参考訳（メタデータ） (2024-08-01T06:06:25Z)
Byzantine-Robust Gossip: Insights from a Dual Approach [15.69624587054777]
本稿では,デバイス同士が直接通信する分散環境でのビザンチン耐性アルゴリズムについて検討する。平均的コンセンサス(英語版)の特別な場合において、グローバルおよび局所的なクリッピングルールの両方を厳密な収束保証とともに提供する。
論文参考訳（メタデータ） (2024-05-06T13:22:54Z)
Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文参考訳（メタデータ） (2024-02-22T23:31:22Z)
Adaptive Global-Local Representation Learning and Selection for Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-20T02:21:41Z)
Generalizable Heterogeneous Federated Cross-Correlation and Instance Similarity Learning [60.058083574671834]
本稿では,新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。不均一な問題に対しては、無関係な公開データを通信に活用する。局所的な更新段階における破滅的な忘れ物として、FCCL+はFederated Non Target Distillationを導入している。
論文参考訳（メタデータ） (2023-09-28T09:32:27Z)
Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case Study for Indian Languages [35.86100962711644]
NLP技術が広く適用され、公正で有用になるためには、世界中の言語で多様な話者を提供する必要がある。本研究では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:04Z)
GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。 GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文参考訳（メタデータ） (2022-04-18T13:56:58Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)
Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。我々はモダリティアライメントプロセスにグローバル損失を導入する。提案メソッドは、複数の設定で以前の方法よりも優れています。
論文参考訳（メタデータ） (2021-03-12T14:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。