Fugu-MT 論文翻訳(概要): Unintended Impacts of LLM Alignment on Global Representation

論文の概要: Unintended Impacts of LLM Alignment on Global Representation

arxiv url: http://arxiv.org/abs/2402.15018v1
Date: Thu, 22 Feb 2024 23:31:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:09:58.659964
Title: Unintended Impacts of LLM Alignment on Global Representation
Title（参考訳）: LLMアライメントのグローバル表現への影響
Authors: Michael J. Ryan, William Held, Diyi Yang
Abstract要約: 開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
参考スコア（独自算出の注目度）: 70.42130533150728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Before being deployed for user-facing applications, developers align Large Language Models (LLMs) to user preferences through a variety of procedures, such as Reinforcement Learning From Human Feedback (RLHF) and Direct Preference Optimization (DPO). Current evaluations of these procedures focus on benchmarks of instruction following, reasoning, and truthfulness. However, human preferences are not universal, and aligning to specific preference sets may have unintended effects. We explore how alignment impacts performance along three axes of global representation: English dialects, multilingualism, and opinions from and about countries worldwide. Our results show that current alignment procedures create disparities between English dialects and global opinions. We find alignment improves capabilities in several languages. We conclude by discussing design decisions that led to these unintended impacts and recommendations for more equitable preference tuning.
Abstract（参考訳）: ユーザ向けアプリケーションにデプロイする前に、開発者は、Reinforcement Learning From Human Feedback (RLHF)やDirect Preference Optimization (DPO)など、さまざまな手順を通じて、大規模言語モデル(LLM)をユーザの好みに合わせる。これらの手順の最近の評価は、命令追従、推論、真理性のベンチマークに焦点を当てている。しかし、人間の選好は普遍的ではなく、特定の選好集合に合わせると意図しない効果がある。我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。その結果,現在のアライメント手順は,英語方言とグローバルな意見の相違を生じさせることがわかった。いくつかの言語でアライメントが向上する。結論として、意図しない影響と、より公平な好み調整のための推奨をもたらす設計決定について議論した。

関連論文リスト

VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7387976970634]
具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-02-17T15:32:14Z)
Northeastern Uni at Multilingual Counterspeech Generation: Enhancing Counter Speech Generation with LLM Alignment through Direct Preference Optimization [1.1368382184602488]
対音声の自動生成は,構築的および情報的応答を提供することにより,ヘイトスピーチに対処するための重要な戦略である。既存の手法は、高品質でインパクトがあり、スケーラブルなCSを生成するのに失敗することが多い。本稿では,大規模言語モデル (LLM) をスーパーバイザード・ファインチューニング (SFT) と直接選好最適化 (DPO) で整列させることによりCS生成を向上させる新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-19T23:22:11Z)
Active Preference-based Learning for Multi-dimensional Personalization [7.349038301460469]
大規模言語モデル(LLM)はタスク間で顕著な汎用性を示しているが、個々の人間の好みに合わせることは依然として困難である。複数の目的にまたがるユーザの嗜好を推定するためにバイナリフィードバックを用いた能動的嗜好学習フレームワークを提案する。モデル応答をパーソナライズする上で,言語生成タスクに関する理論的解析と実験を行い,そのフィードバック効率と有効性を示す。
論文参考訳（メタデータ） (2024-11-01T11:49:33Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-07-07T15:35:41Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文参考訳（メタデータ） (2024-01-12T18:03:54Z)
ULMA: Unified Language Model Alignment with Human Demonstration and Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文参考訳（メタデータ） (2023-12-05T07:52:12Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。