論文の概要: The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm
- arxiv url: http://arxiv.org/abs/2406.18682v1
- Date: Wed, 26 Jun 2024 18:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:07:31.627092
- Title: The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm
- Title(参考訳): 多言語アライメントプリズム:ハーム低減のためのグローバルおよびローカルな選好の調整
- Authors: Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker,
- Abstract要約: AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。
我々は、グローバルとローカルの害を区別した、人間の注釈付きレッドチームプロンプトの最初のセットを異なる言語で収集する。
汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。
- 参考スコア(独自算出の注目度): 17.566947609534356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key concern with the concept of "alignment" is the implicit question of "alignment to what?". AI systems are increasingly used across the world, yet safety alignment is often focused on homogeneous monolingual settings. Additionally, preference training and safety measures often overfit to harms common in Western-centric datasets. Here, we explore the viability of different alignment approaches when balancing dual objectives: addressing and optimizing for a non-homogeneous set of languages and cultural preferences while minimizing both global and local harms. We collect the first set of human annotated red-teaming prompts in different languages distinguishing between global and local harm, which serve as a laboratory for understanding the reliability of alignment techniques when faced with preference distributions that are non-stationary across geographies and languages. While this setting is seldom covered by the literature to date, which primarily centers on English harm mitigation, it captures real-world interactions with AI systems around the world. We establish a new precedent for state-of-the-art alignment techniques across 6 languages with minimal degradation in general performance. Our work provides important insights into cross-lingual transfer and novel optimization approaches to safeguard AI systems designed to serve global populations.
- Abstract(参考訳): アライメント」の概念に関する重要な関心事は、「アライメントとは何か?」という暗黙の疑問である。
AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。
さらに、好みのトレーニングや安全対策は、西洋中心のデータセットに共通する害に対して過度に適合することが多い。
ここでは,両目的のバランスをとる際の異なるアライメントアプローチの実現可能性について考察する。グローバルとローカルの両方の害を最小限に抑えつつ,同種でない言語や文化的な嗜好に対処し,最適化する。
我々は、グローバルとローカルの害を区別する異なる言語で、人間の注釈付きレッドチームプロンプトの最初のセットを収集し、地理的・言語にまたがる非定常的な好み分布に直面した際のアライメント手法の信頼性を理解する実験室として機能する。
この設定は、主に英語の害軽減に焦点を当てた、これまでの文献ではほとんどカバーされていないが、世界中のAIシステムとの現実世界のインタラクションを捉えている。
汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。
我々の研究は、グローバルな人口に対応するように設計されたAIシステムを保護するために、言語間移動と新しい最適化アプローチに関する重要な洞察を提供する。
関連論文リスト
- ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。
合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。
我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文 参考訳(メタデータ) (2024-08-01T06:06:25Z) - Byzantine-Robust Gossip: Insights from a Dual Approach [15.69624587054777]
本稿では,デバイス同士が直接通信する分散環境でのビザンチン耐性アルゴリズムについて検討する。
平均的コンセンサス(英語版)の特別な場合において、グローバルおよび局所的なクリッピングルールの両方を厳密な収束保証とともに提供する。
論文 参考訳(メタデータ) (2024-05-06T13:22:54Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Generalizable Heterogeneous Federated Cross-Correlation and Instance
Similarity Learning [60.058083574671834]
本稿では,新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。
不均一な問題に対しては、無関係な公開データを通信に活用する。
局所的な更新段階における破滅的な忘れ物として、FCCL+はFederated Non Target Distillationを導入している。
論文 参考訳(メタデータ) (2023-09-28T09:32:27Z) - Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case
Study for Indian Languages [35.86100962711644]
NLP技術が広く適用され、公正で有用になるためには、世界中の言語で多様な話者を提供する必要がある。
本研究では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:04Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
論文 参考訳(メタデータ) (2021-03-12T14:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。