論文の概要: Unintended Impacts of LLM Alignment on Global Representation
- arxiv url: http://arxiv.org/abs/2402.15018v1
- Date: Thu, 22 Feb 2024 23:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:09:58.659964
- Title: Unintended Impacts of LLM Alignment on Global Representation
- Title(参考訳): LLMアライメントのグローバル表現への影響
- Authors: Michael J. Ryan, William Held, Diyi Yang
- Abstract要約: 開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
- 参考スコア(独自算出の注目度): 70.42130533150728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Before being deployed for user-facing applications, developers align Large
Language Models (LLMs) to user preferences through a variety of procedures,
such as Reinforcement Learning From Human Feedback (RLHF) and Direct Preference
Optimization (DPO). Current evaluations of these procedures focus on benchmarks
of instruction following, reasoning, and truthfulness. However, human
preferences are not universal, and aligning to specific preference sets may
have unintended effects. We explore how alignment impacts performance along
three axes of global representation: English dialects, multilingualism, and
opinions from and about countries worldwide. Our results show that current
alignment procedures create disparities between English dialects and global
opinions. We find alignment improves capabilities in several languages. We
conclude by discussing design decisions that led to these unintended impacts
and recommendations for more equitable preference tuning.
- Abstract(参考訳): ユーザ向けアプリケーションにデプロイする前に、開発者は、Reinforcement Learning From Human Feedback (RLHF)やDirect Preference Optimization (DPO)など、さまざまな手順を通じて、大規模言語モデル(LLM)をユーザの好みに合わせる。
これらの手順の最近の評価は、命令追従、推論、真理性のベンチマークに焦点を当てている。
しかし、人間の選好は普遍的ではなく、特定の選好集合に合わせると意図しない効果がある。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
その結果,現在のアライメント手順は,英語方言とグローバルな意見の相違を生じさせることがわかった。
いくつかの言語でアライメントが向上する。
結論として、意図しない影響と、より公平な好み調整のための推奨をもたらす設計決定について議論した。
関連論文リスト
- Active Preference-based Learning for Multi-dimensional Personalization [7.349038301460469]
大規模言語モデル(LLM)はタスク間で顕著な汎用性を示しているが、個々の人間の好みに合わせることは依然として困難である。
複数の目的にまたがるユーザの嗜好を推定するためにバイナリフィードバックを用いた能動的嗜好学習フレームワークを提案する。
モデル応答をパーソナライズする上で,言語生成タスクに関する理論的解析と実験を行い,そのフィードバック効率と有効性を示す。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。