論文の概要: From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models
- arxiv url: http://arxiv.org/abs/2308.12014v2
- Date: Mon, 4 Sep 2023 03:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:54:56.601387
- Title: From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models
- Title(参考訳): 指示から本質的人間価値へ ---大規模モデルのためのアライメント目標の調査-
- Authors: Jing Yao, Xiaoyuan Yi, Xiting Wang, Jindong Wang and Xing Xie
- Abstract要約: 既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
- 参考スコア(独自算出の注目度): 48.326660953180145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Big models, exemplified by Large Language Models (LLMs), are models typically
pre-trained on massive data and comprised of enormous parameters, which not
only obtain significantly improved performance across diverse tasks but also
present emergent capabilities absent in smaller models. However, the growing
intertwining of big models with everyday human lives poses potential risks and
might cause serious social harm. Therefore, many efforts have been made to
align LLMs with humans to make them better follow user instructions and satisfy
human preferences. Nevertheless, `what to align with' has not been fully
discussed, and inappropriate alignment goals might even backfire. In this
paper, we conduct a comprehensive survey of different alignment goals in
existing work and trace their evolution paths to help identify the most
essential goal. Particularly, we investigate related works from two
perspectives: the definition of alignment goals and alignment evaluation. Our
analysis encompasses three distinct levels of alignment goals and reveals a
goal transformation from fundamental abilities to value orientation, indicating
the potential of intrinsic human values as the alignment goal for enhanced
LLMs. Based on such results, we further discuss the challenges of achieving
such intrinsic value alignment and provide a collection of available resources
for future research on the alignment of big models.
- Abstract(参考訳): 大きなモデルは、大きな言語モデル(llm)によって例示され、通常、巨大なデータに基づいて事前訓練されたモデルであり、巨大なパラメータで構成されます。
しかし、大きなモデルと人間の日常生活との絡み合いが増すことは潜在的なリスクをもたらし、深刻な社会的危害を引き起こす可能性がある。
そのため、LLMを人間と整合させ、利用者の指示に従い、人間の嗜好を満たすために多くの努力がなされている。
それでも 'What toaligned' は十分に議論されておらず、不適切なアライメントの目標がバックファイアすることさえある。
本稿では,既存の作業におけるアライメント目標の総合的な調査を行い,その進化経路を辿り,最も重要な目標の特定を支援する。
特に,アライメント目標の定義とアライメント評価という2つの視点から関連する作業について検討する。
我々の分析は3つの異なるアライメント目標を包含し、基本的な能力から価値指向への目標転換を明らかにし、LLMの強化のためのアライメント目標として本質的な人間の価値の可能性を示している。
これらの結果を踏まえて,本質的価値アライメントを実現するための課題をさらに議論し,大規模モデルのアライメントに関する今後の研究のために利用可能なリソースのコレクションを提供する。
関連論文リスト
- On-Road Object Importance Estimation: A New Dataset and A Model with Multi-Fold Top-Down Guidance [70.80612792049315]
本稿では,交通オブジェクト重要度(TOI)という,新しい大規模データセットを提案する。
ボトムアップ機能とマルチフォールドトップダウンガイダンスを統合するモデルを提案する。
我々のモデルは最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-11-26T06:37:10Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。