論文の概要: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- arxiv url: http://arxiv.org/abs/2406.15938v3
- Date: Tue, 29 Oct 2024 14:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:17.154581
- Title: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- Title(参考訳): RuleR:ルールベースのデータリサイクルによるLCM制御性の向上
- Authors: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou,
- Abstract要約: ルールベースのデータリサイクリング(RuleR)は、オリジナルのSFTデータに複数の制約を組み込んだ人間/LLMフリーデータ拡張手法である。
RuleRは、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすために応答を変更する。
一般的な命令追従性能を維持しつつ,LLM制御性の向上におけるルールRの有効性を実証した。
- 参考スコア(独自算出の注目度): 28.74786215922553
- License:
- Abstract: Despite the remarkable advancement of Large language models (LLMs), they still lack delicate controllability under sophisticated constraints, which is critical to enhancing their response quality and the user experience. While conditional supervised fine-tuning (SFT) can potentially improve LLM controllability, curating new SFT data to fulfill the constraints usually relies on human experts or proprietary LLMs, which is time-consuming and expensive. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a human/LLM-free data augmentation method incorporating multiple constraints into the original SFT data. Instead of creating new responses from scratch, RuleR integrates linguistic or formatting rules into the original instructions and modifies the responses to fulfill the rule-defined constraints. Training on the "recycled" data consolidates LLMs capability to generate constrained outputs. Extensive experiments demonstrate RuleR's effectiveness in improving LLM controllability while maintaining general instruction-following performance. RuleR's code is released on https://github.com/tianyi-lab/RuleR.
- Abstract(参考訳): 大きな言語モデル(LLM)の顕著な進歩にもかかわらず、洗練された制約の下では微妙な制御性に欠けており、応答品質とユーザエクスペリエンスの向上に不可欠である。
条件付き微調整(SFT)は、LSMの制御性を改善する可能性があるが、制約を満たすために新しいSFTデータをキュレートすることは、通常、時間と費用のかかる、人間の専門家やプロプライエタリなLSMに依存している。
このギャップを埋めるために,ルールベースのデータリサイクリング(RuleR)を提案する。
ルールRは、スクラッチから新しいレスポンスを作成する代わりに、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすためにレスポンスを変更する。
リサイクルされた」データのトレーニングは、制約された出力を生成するLLM機能を集約する。
総合的な実験は、一般的な命令追従性能を維持しながら、LLM制御性の向上におけるルールRの有効性を示す。
RuleRのコードはhttps://github.com/tianyi-lab/RuleRで公開されている。
関連論文リスト
- Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。
本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。
また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文 参考訳(メタデータ) (2024-08-08T11:51:45Z) - DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation [3.5113201254928117]
逐次レコメンデーション(SR)タスクは、ユーザの過去のインタラクションと好みの変化を関連付けることで、レコメンデーションの精度を高める。
従来のモデルは、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに集中し、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストやセマンティックな情報を無視することが多い。
DelRecは、SRモデルから知識を抽出し、LLMがより効果的なシーケンシャルレコメンデーションのためにこれらの補足情報を容易に理解し利用できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。