論文の概要: From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models
- arxiv url: http://arxiv.org/abs/2308.12014v1
- Date: Wed, 23 Aug 2023 09:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:57:48.439268
- Title: From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models
- Title(参考訳): 指示から本質的人間価値へ ---大規模モデルのためのアライメント目標の調査-
- Authors: Jing Yao, Xiaoyuan Yi, Xiting Wang, Jindong Wang and Xing Xie
- Abstract要約: 既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
- 参考スコア(独自算出の注目度): 48.326660953180145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Big models, exemplified by Large Language Models (LLMs), are models typically
pre-trained on massive data and comprised of enormous parameters, which not
only obtain significantly improved performance across diverse tasks but also
present emergent capabilities absent in smaller models. However, the growing
intertwining of big models with everyday human lives poses potential risks and
might cause serious social harm. Therefore, many efforts have been made to
align LLMs with humans to make them better follow user instructions and satisfy
human preferences. Nevertheless, `what to align with' has not been fully
discussed, and inappropriate alignment goals might even backfire. In this
paper, we conduct a comprehensive survey of different alignment goals in
existing work and trace their evolution paths to help identify the most
essential goal. Particularly, we investigate related works from two
perspectives: the definition of alignment goals and alignment evaluation. Our
analysis encompasses three distinct levels of alignment goals and reveals a
goal transformation from fundamental abilities to value orientation, indicating
the potential of intrinsic human values as the alignment goal for enhanced
LLMs. Based on such results, we further discuss the challenges of achieving
such intrinsic value alignment and provide a collection of available resources
for future research on the alignment of big models.
- Abstract(参考訳): 大きなモデルは、大きな言語モデル(llm)によって例示され、通常、巨大なデータに基づいて事前訓練されたモデルであり、巨大なパラメータで構成されます。
しかし、大きなモデルと人間の日常生活との絡み合いが増すことは潜在的なリスクをもたらし、深刻な社会的危害を引き起こす可能性がある。
そのため、LLMを人間と整合させ、利用者の指示に従い、人間の嗜好を満たすために多くの努力がなされている。
それでも 'What toaligned' は十分に議論されておらず、不適切なアライメントの目標がバックファイアすることさえある。
本稿では,既存の作業におけるアライメント目標の総合的な調査を行い,その進化経路を辿り,最も重要な目標の特定を支援する。
特に,アライメント目標の定義とアライメント評価という2つの視点から関連する作業について検討する。
我々の分析は3つの異なるアライメント目標を包含し、基本的な能力から価値指向への目標転換を明らかにし、LLMの強化のためのアライメント目標として本質的な人間の価値の可能性を示している。
これらの結果を踏まえて,本質的価値アライメントを実現するための課題をさらに議論し,大規模モデルのアライメントに関する今後の研究のために利用可能なリソースのコレクションを提供する。
関連論文リスト
- Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T03:47:40Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。