論文の概要: Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation
- arxiv url: http://arxiv.org/abs/2310.15746v1
- Date: Tue, 24 Oct 2023 11:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:59:49.534636
- Title: Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation
- Title(参考訳): 失敗は道を開く - チューニングフリーなルール蓄積による大規模言語モデルの拡張
- Authors: Zeyuan Yang, Peng Li, Yang Liu
- Abstract要約: 大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.366334433990588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have showcased impressive performance. However,
due to their inability to capture relationships among samples, these frozen
LLMs inevitably keep repeating similar mistakes. In this work, we propose our
Tuning-free Rule Accumulation (TRAN) framework, which guides LLMs in improving
their performance by learning from previous mistakes. Considering data arrives
sequentially, LLMs gradually accumulate rules from incorrect cases, forming a
rule collection. These rules are then utilized by the LLMs to avoid making
similar mistakes when processing subsequent inputs. Moreover, the rules remain
independent of the primary prompts, seamlessly complementing prompt design
strategies. Experimentally, we show that TRAN improves over recent baselines by
a large margin.
- Abstract(参考訳): 大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
しかし、サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
本稿では,過去の誤りから学習することで,llmの性能向上を指導するチューニングフリールール蓄積(tran)フレームワークを提案する。
データが順次到着すると、LSMは不正なケースから徐々にルールを蓄積し、ルールコレクションを形成する。
これらのルールはLLMによって、後続の入力を処理する際にも同様のミスを避けるために使用される。
さらに、ルールはプライマリプロンプトとは独立であり、シームレスにプロンプトデザイン戦略を補完する。
実験により,TRANは最近のベースラインよりも大きなマージンで改善されていることがわかった。
関連論文リスト
- Training Large Language Models to be Better Rule Followers [23.958458849973248]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
現在の訓練方法はこれらのルールを効果的に活用できない。
本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
論文 参考訳(メタデータ) (2025-02-17T07:54:50Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:59:48Z) - CorrectionLM: Self-Corrections with SLM for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) はフィードバックや改善を通じて自己改善能力を示すが、現在の小言語モデル (SLM) はこの分野では限られた成功を収めている。
CORRECTIONLMは、SLMがLLMを介さずにインコンテキストの例を使って自己修正できる新しい補正フレームワークである。
論文 参考訳(メタデータ) (2024-10-23T18:27:16Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Order-Independence Without Fine Tuning [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。