論文の概要: Training Socially Aligned Language Models in Simulated Human Society
- arxiv url: http://arxiv.org/abs/2305.16960v1
- Date: Fri, 26 May 2023 14:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:25:54.351687
- Title: Training Socially Aligned Language Models in Simulated Human Society
- Title(参考訳): シミュレーション人間社会における社会適応型言語モデルの訓練
- Authors: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M.
Dai, Diyi Yang, Soroush Vosoughi
- Abstract要約: AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 65.5258793183065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social alignment in AI systems aims to ensure that these models behave
according to established societal values. However, unlike humans, who derive
consensus on value judgments through social interaction, current language
models (LMs) are trained to rigidly replicate their training corpus in
isolation, leading to subpar generalization in unfamiliar scenarios and
vulnerability to adversarial attacks. This work presents a novel training
paradigm that permits LMs to learn from simulated social interactions. In
comparison to existing methodologies, our approach is considerably more
scalable and efficient, demonstrating superior performance in alignment
benchmarks and human evaluations. This paradigm shift in the training of LMs
brings us a step closer to developing AI systems that can robustly and
accurately reflect societal norms and values.
- Abstract(参考訳): AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
しかし、社会的相互作用を通じて価値判断に関するコンセンサスを導出する人間とは異なり、現在の言語モデル(lms)は、トレーニングコーパスを分離して厳格に複製するように訓練され、未知のシナリオと敵の攻撃に対する脆弱性のサブパー一般化に繋がる。
この研究は、シミュレーションされた社会的相互作用から学ぶことができる新しい訓練パラダイムを示す。
既存の手法と比較して、我々のアプローチはかなりスケーラブルで効率的であり、アライメントベンチマークや人間評価において優れた性能を示している。
LMのトレーニングにおけるこのパラダイムシフトは、社会的規範と価値を堅牢かつ正確に反映できるAIシステムの開発に一歩近づきます。
関連論文リスト
- Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents [6.1923703280119105]
本稿では,ソーシャルメディア利用者の意見を動的に表現するための革新的なシミュレーション手法を提案する。
FDE-LLMアルゴリズムは意見力学と流行モデルを含む。
ユーザーを意見のリーダーとフォロワーに分類する。
論文 参考訳(メタデータ) (2024-09-13T11:02:28Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Shall We Team Up: Exploring Spontaneous Cooperation of Competing LLM Agents [18.961470450132637]
本稿では、エージェントが文脈に深く関与し、明示的な指示なしに適応的な決定を行う自然現象の重要性を強調する。
我々は,3つの競争シナリオにまたがる自発的な協力を探究し,協力の段階的出現をシミュレートした。
論文 参考訳(メタデータ) (2024-02-19T18:00:53Z) - Learning Human-like Representations to Enable Learning Human Values [12.628307026004656]
人間とAIエージェントの表現的アライメントは価値アライメントを促進すると我々は主張する。
価値アライメントの一側面として倫理を重視し,さまざまな手法を用いてMLエージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [34.08410116336628]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。