論文の概要: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- arxiv url: http://arxiv.org/abs/2406.15938v2
- Date: Tue, 08 Oct 2024 19:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:31.237360
- Title: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- Title(参考訳): RuleR:ルールベースのデータリサイクルによるLCM制御性の向上
- Authors: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou,
- Abstract要約: ルールベースのデータリサイクリング(RuleR)は、オリジナルのSFTデータに複数の制約を組み込んだ人間/LLMフリーデータ拡張手法である。
RuleRは、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすために応答を変更する。
一般的な命令追従性能を維持しつつ,LLM制御性の向上におけるルールRの有効性を実証した。
- 参考スコア(独自算出の注目度): 28.74786215922553
- License:
- Abstract: Despite the remarkable advancement of Large language models (LLMs), they still lack delicate controllability under sophisticated constraints, which is critical to enhancing their response quality and the user experience. While conditional supervised fine-tuning (SFT) can potentially improve LLM controllability, curating new SFT data to fulfill the constraints usually relies on human experts or proprietary LLMs, which is time-consuming and expensive. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a human/LLM-free data augmentation method incorporating multiple constraints into the original SFT data. Instead of creating new responses from scratch, RuleR integrates linguistic or formatting rules into the original instructions and modifies the responses to fulfill the rule-defined constraints. Training on the "recycled" data consolidates LLMs capability to generate constrained outputs. Extensive experiments demonstrate RuleR's effectiveness in improving LLM controllability while maintaining general instruction-following performance. RuleR's code is released on https://github.com/tianyi-lab/RuleR.
- Abstract(参考訳): 大きな言語モデル(LLM)の顕著な進歩にもかかわらず、洗練された制約の下では微妙な制御性に欠けており、応答品質とユーザエクスペリエンスの向上に不可欠である。
条件付き微調整(SFT)は、LSMの制御性を改善する可能性があるが、制約を満たすために新しいSFTデータをキュレートすることは、通常、時間と費用のかかる、人間の専門家やプロプライエタリなLSMに依存している。
このギャップを埋めるために,ルールベースのデータリサイクリング(RuleR)を提案する。
ルールRは、スクラッチから新しいレスポンスを作成する代わりに、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすためにレスポンスを変更する。
リサイクルされた」データのトレーニングは、制約された出力を生成するLLM機能を集約する。
総合的な実験は、一般的な命令追従性能を維持しながら、LLM制御性の向上におけるルールRの有効性を示す。
RuleRのコードはhttps://github.com/tianyi-lab/RuleRで公開されている。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - DELRec: Distilling Sequential Pattern to Enhance LLMs-based Sequential Recommendation [7.914816884185941]
逐次リコメンデーション(SR)タスクは,ユーザの行動シーケンスを学習し,過去のインタラクションと好みの変化を関連付けることによって,ユーザの次のインタラクションを予測することを目的としている。
従来のSRモデルは、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストや意味情報を無視して、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに重点を置いていることが多い。
大規模言語モデル(LLM)は、その高度な理解能力と強力な一般化能力により、最近SRタスクにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation [11.366334433990588]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T11:40:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。