Fugu-MT 論文翻訳(概要): RuleR: Improving LLM Controllability by Rule-based Data Recycling

論文の概要: RuleR: Improving LLM Controllability by Rule-based Data Recycling

arxiv url: http://arxiv.org/abs/2406.15938v2
Date: Tue, 08 Oct 2024 19:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.022072
Title: RuleR: Improving LLM Controllability by Rule-based Data Recycling
Title（参考訳）: RuleR:ルールベースのデータリサイクルによるLCM制御性の向上
Authors: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou,
Abstract要約: ルールベースのデータリサイクリング(RuleR)は、オリジナルのSFTデータに複数の制約を組み込んだ人間/LLMフリーデータ拡張手法である。 RuleRは、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすために応答を変更する。一般的な命令追従性能を維持しつつ,LLM制御性の向上におけるルールRの有効性を実証した。
参考スコア（独自算出の注目度）: 28.74786215922553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable advancement of Large language models (LLMs), they still lack delicate controllability under sophisticated constraints, which is critical to enhancing their response quality and the user experience. While conditional supervised fine-tuning (SFT) can potentially improve LLM controllability, curating new SFT data to fulfill the constraints usually relies on human experts or proprietary LLMs, which is time-consuming and expensive. To bridge this gap, we propose Rule-based Data Recycling (RuleR), a human/LLM-free data augmentation method incorporating multiple constraints into the original SFT data. Instead of creating new responses from scratch, RuleR integrates linguistic or formatting rules into the original instructions and modifies the responses to fulfill the rule-defined constraints. Training on the "recycled" data consolidates LLMs capability to generate constrained outputs. Extensive experiments demonstrate RuleR's effectiveness in improving LLM controllability while maintaining general instruction-following performance. RuleR's code is released on https://github.com/tianyi-lab/RuleR.
Abstract（参考訳）: 大きな言語モデル(LLM)の顕著な進歩にもかかわらず、洗練された制約の下では微妙な制御性に欠けており、応答品質とユーザエクスペリエンスの向上に不可欠である。条件付き微調整(SFT)は、LSMの制御性を改善する可能性があるが、制約を満たすために新しいSFTデータをキュレートすることは、通常、時間と費用のかかる、人間の専門家やプロプライエタリなLSMに依存している。このギャップを埋めるために,ルールベースのデータリサイクリング(RuleR)を提案する。ルールRは、スクラッチから新しいレスポンスを作成する代わりに、言語またはフォーマットルールを元の命令に統合し、ルール定義の制約を満たすためにレスポンスを変更する。リサイクルされた」データのトレーニングは、制約された出力を生成するLLM機能を集約する。総合的な実験は、一般的な命令追従性能を維持しながら、LLM制御性の向上におけるルールRの有効性を示す。 RuleRのコードはhttps://github.com/tianyi-lab/RuleRで公開されている。

関連論文リスト

MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文参考訳（メタデータ） (2024-10-31T17:42:26Z)
LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文参考訳（メタデータ） (2024-10-14T23:43:33Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文参考訳（メタデータ） (2024-09-10T06:07:32Z)
Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文参考訳（メタデータ） (2024-08-08T11:51:45Z)
DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation [3.5113201254928117]
逐次レコメンデーション(SR)タスクは、ユーザの過去のインタラクションと好みの変化を関連付けることで、レコメンデーションの精度を高める。従来のモデルは、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに集中し、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストやセマンティックな情報を無視することが多い。 DelRecは、SRモデルから知識を抽出し、LLMがより効果的なシーケンシャルレコメンデーションのためにこれらの補足情報を容易に理解し利用できるようにすることを目的としている。
論文参考訳（メタデータ） (2024-06-17T02:47:09Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Failures Pave the Way: Enhancing Large Language Models through Tuning-free Rule Accumulation [11.366334433990588]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T11:40:34Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。