論文の概要: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- arxiv url: http://arxiv.org/abs/2406.15938v1
- Date: Sat, 22 Jun 2024 20:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:53:14.099865
- Title: RuleR: Improving LLM Controllability by Rule-based Data Recycling
- Title(参考訳): RuleR:ルールベースのデータリサイクルによるLCM制御性の向上
- Authors: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、応答に対する微妙な制御性に欠ける。
制御性を改善するための監視された微調整(SFT)データセットは通常、人間の専門家やプロプライエタリなLLMに依存している。
本稿では,ルールに基づくデータリサイクリング(RuleR)を提案する。
- 参考スコア(独自算出の注目度): 28.74786215922553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) still lack delicate controllability over their responses, which is critical to enhancing their performance and the user experience. However, curating supervised fine-tuning (SFT) datasets to improve LLM controllability usually relies on human experts or proprietary LLMs, which requires additional costs. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a data augmentation method incorporating multiple constraints into the original data samples according to predefined rules, which creates new training tasks to consolidate the controllability of LLMs. Instead of creating new data from scratch, RuleR ``recycles'' existing data by simply applying rule-based edits to their responses and appending the rule-instructions in their original instructions. Experimental results demonstrate RuleR's effectiveness in improving LLM controllability while maintaining general instruction-following capabilities. The code will be released on https://github.com/MingLiiii/RuleR.
- Abstract(参考訳): 大規模言語モデル(LLM)は応答に対する微妙な制御性に欠けており、パフォーマンスとユーザエクスペリエンスの向上に不可欠である。
しかしながら、LLMの制御性を改善するための教師付き微調整(SFT)データセットのキュレーションは通常、追加のコストを必要とする人間の専門家やプロプライエタリなLSMに依存している。
このギャップを埋めるため,ルールベースのデータリサイクリング(RuleR)を提案し,複数の制約を予め定義されたルールに従って元のデータサンプルに組み込んだデータ拡張手法を提案する。
スクラッチから新しいデータを生成する代わりに、ルールベースの編集をそのレスポンスに単純に適用し、元の命令にルール命令を追加することで、ルールR ``recycles' の既存のデータを生成する。
一般的な指示追従能力を維持しつつ,LLM制御性の向上におけるルールRの有効性を示す実験結果が得られた。
コードはhttps://github.com/MingLiiii/RuleR.comでリリースされる。
関連論文リスト
- DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation [3.5113201254928117]
逐次レコメンデーション(SR)タスクは、ユーザの過去のインタラクションと好みの変化を関連付けることで、レコメンデーションの精度を高める。
従来のモデルは、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに集中し、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストやセマンティックな情報を無視することが多い。
DelRecは、SRモデルから知識を抽出し、LLMがより効果的なシーケンシャルレコメンデーションのためにこれらの補足情報を容易に理解し利用できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z) - Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。
大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。
LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文 参考訳(メタデータ) (2024-04-27T07:12:52Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation [11.366334433990588]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T11:40:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。