論文の概要: RNR: Teaching Large Language Models to Follow Roles and Rules
- arxiv url: http://arxiv.org/abs/2409.13733v1
- Date: Tue, 10 Sep 2024 06:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.597637
- Title: RNR: Teaching Large Language Models to Follow Roles and Rules
- Title(参考訳): RNR: 大きな言語モデルに役割とルールをフォローするように教える
- Authors: Kuan Wang, Alexander Bukharin, Haoming Jiang, Qingyu Yin, Zhengyang Wang, Tuo Zhao, Jingbo Shang, Chao Zhang, Bing Yin, Xian Li, Jianshu Chen, Shiyang Li,
- Abstract要約: 既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
- 参考スコア(独自算出の注目度): 153.6596303205894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction fine-tuning (IFT) elicits instruction following capabilities and steers the behavior of large language models (LLMs) via supervised learning. However, existing models trained on open-source IFT datasets only have the ability to follow instructions from users, and often fail to follow complex role and rules specified by developers, a.k.a. system prompts. The ability to follow these roles and rules is essential for deployment, as it ensures that the model safely interacts with users within developer defined guidelines. To improve such role and rule following ability, we propose \model, an automated data generation pipeline that generates diverse roles and rules from existing IFT instructions, along with corresponding responses. This data can then be used to train models that follow complex system prompts. The models are evaluated on our newly created benchmarks for role and rule following ability, as well as standard instruction-following benchmarks and general NLP tasks. Our framework significantly improves role and rule following capability in LLMs, as evidenced by over 25% increase in pass-rate on rule adherence, i.e. following all requirements, in our experiments with the Alpaca and Ultrachat datasets. Moreover, our models achieves this increase without any regression on popular instruction following benchmarks.
- Abstract(参考訳): Instruction fine-tuning (IFT)は、教師付き学習を通じて、命令に従う能力を与え、大きな言語モデル(LLM)の振る舞いを操縦する。
しかし、オープンソースのIFTデータセットでトレーニングされた既存のモデルは、ユーザからの指示に従う能力しか持たず、しばしば開発者が指定する複雑な役割やルール、すなわちシステムプロンプトに従わない。
これらの役割とルールに従う能力は、開発者が定義したガイドラインの中で、モデルがユーザと安全に対話できることを保証するため、デプロイメントに不可欠である。
このような役割とルール追従能力を改善するために,既存のIFT命令から多様な役割とルールを生成する自動データ生成パイプラインである \model を提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
提案するモデルでは,役割とルール追従能力のベンチマーク,標準命令追従ベンチマーク,一般的なNLPタスクについて評価を行った。
アルパカデータセットとUltrachatデータセットを用いた実験では、規則順守に関するパスレートが25%以上増加していることが証明されている。
さらに,我々のモデルは,ベンチマーク後の一般的な命令の回帰を伴わずに,この増加を達成する。
関連論文リスト
- Training Large Language Models to be Better Rule Followers [23.958458849973248]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
現在の訓練方法はこれらのルールを効果的に活用できない。
本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
論文 参考訳(メタデータ) (2025-02-17T07:54:50Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs [4.096028601599825]
パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。
本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。
論文 参考訳(メタデータ) (2024-10-14T17:20:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - RuleR: Improving LLM Controllability by Rule-based Data Recycling [28.74786215922553]
ルールベースのデータリサイクリング(RuleR)は、事前定義されたルールに従って、複数の制約を元のデータサンプルに組み込むデータ拡張手法である。
ルールRは、スクラッチから新しいデータを生成する代わりに、ルールベースの編集を彼らのレスポンスに単純に適用し、元の命令にルール命令を追加することで、既存のデータを「リサイクル」する。
一般的な指示追従能力を維持しつつ,LLM制御性の向上におけるルールRの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-22T20:57:12Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。