論文の概要: The Real, the Better: Aligning Large Language Models with Online Human Behaviors
- arxiv url: http://arxiv.org/abs/2405.00578v1
- Date: Wed, 1 May 2024 15:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:17:48.053025
- Title: The Real, the Better: Aligning Large Language Models with Online Human Behaviors
- Title(参考訳): The Real, the Better: Aligning Large Language Models with Online Human Behaviors
- Authors: Guanying Jiang, Lingyong Yan, Haibo Shi, Dawei Yin,
- Abstract要約: 本稿では,人間行動を用いた強化学習というアライメントフレームワークを提案する。
生成的逆境の枠組みを取り入れることで、ジェネレータは期待される人間の行動に応答するように訓練される。
判別器は、実際のオンライン環境からクエリ、レスポンス、人間の振る舞いのトリプルが生まれるかどうかを検証しようとする。
- 参考スコア(独自算出の注目度): 20.321797572243074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model alignment is widely used and studied to avoid LLM producing unhelpful and harmful responses. However, the lengthy training process and predefined preference bias hinder adaptation to online diverse human preferences. To this end, this paper proposes an alignment framework, called Reinforcement Learning with Human Behavior (RLHB), to align LLMs by directly leveraging real online human behaviors. By taking the generative adversarial framework, the generator is trained to respond following expected human behavior; while the discriminator tries to verify whether the triplets of query, response, and human behavior come from real online environments. Behavior modeling in natural-language form and the multi-model joint training mechanism enable an active and sustainable online alignment. Experimental results confirm the effectiveness of our proposed methods by both human and automatic evaluations.
- Abstract(参考訳): 大規模言語モデルアライメントは、LLMが有害で有害な応答を引き起こすのを避けるために広く使われ、研究されている。
しかし、長いトレーニングプロセスと事前定義された嗜好バイアスは、オンラインの多様な人間の嗜好への適応を妨げる。
そこで本研究では,人間行動を用いた強化学習(Reinforcement Learning with Human Behavior, RLHB)というアライメントフレームワークを提案する。
ジェネレータは、生成的敵対的枠組みをとることにより、期待される人間の行動に従うように訓練される。一方、判別器は、実際のオンライン環境からクエリ、応答、人間の行動の三つ子を検証しようとする。
自然言語形式の行動モデリングと多モデル共同学習機構は、アクティブで持続可能なオンラインアライメントを可能にする。
提案手法の有効性を人的評価と自動評価の両方で検証した。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation [54.97931304488993]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。