論文の概要: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- arxiv url: http://arxiv.org/abs/2406.15938v1
- Date: Sat, 22 Jun 2024 20:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:53:14.099865
- Title: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- Title(参考訳): RuleR:ルールベースのデータリサイクルによるLCM制御性の向上
- Authors: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、応答に対する微妙な制御性に欠ける。
制御性を改善するための監視された微調整(SFT)データセットは通常、人間の専門家やプロプライエタリなLLMに依存している。
本稿では,ルールに基づくデータリサイクリング(RuleR)を提案する。
- 参考スコア(独自算出の注目度): 28.74786215922553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) still lack delicate controllability over their responses, which is critical to enhancing their performance and the user experience. However, curating supervised fine-tuning (SFT) datasets to improve LLM controllability usually relies on human experts or proprietary LLMs, which requires additional costs. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a data augmentation method incorporating multiple constraints into the original data samples according to predefined rules, which creates new training tasks to consolidate the controllability of LLMs. Instead of creating new data from scratch, RuleR ``recycles'' existing data by simply applying rule-based edits to their responses and appending the rule-instructions in their original instructions. Experimental results demonstrate RuleR's effectiveness in improving LLM controllability while maintaining general instruction-following capabilities. The code will be released on https://github.com/MingLiiii/RuleR.
- Abstract(参考訳): 大規模言語モデル(LLM)は応答に対する微妙な制御性に欠けており、パフォーマンスとユーザエクスペリエンスの向上に不可欠である。
しかしながら、LLMの制御性を改善するための教師付き微調整(SFT)データセットのキュレーションは通常、追加のコストを必要とする人間の専門家やプロプライエタリなLSMに依存している。
このギャップを埋めるため,ルールベースのデータリサイクリング(RuleR)を提案し,複数の制約を予め定義されたルールに従って元のデータサンプルに組み込んだデータ拡張手法を提案する。
スクラッチから新しいデータを生成する代わりに、ルールベースの編集をそのレスポンスに単純に適用し、元の命令にルール命令を追加することで、ルールR ``recycles' の既存のデータを生成する。
一般的な指示追従能力を維持しつつ,LLM制御性の向上におけるルールRの有効性を示す実験結果が得られた。
コードはhttps://github.com/MingLiiii/RuleR.comでリリースされる。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - DELRec: Distilling Sequential Pattern to Enhance LLMs-based Sequential Recommendation [7.914816884185941]
逐次リコメンデーション(SR)タスクは,ユーザの行動シーケンスを学習し,過去のインタラクションと好みの変化を関連付けることによって,ユーザの次のインタラクションを予測することを目的としている。
従来のSRモデルは、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストや意味情報を無視して、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに重点を置いていることが多い。
大規模言語モデル(LLM)は、その高度な理解能力と強力な一般化能力により、最近SRタスクにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation [11.366334433990588]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T11:40:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。