論文の概要: Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning
- arxiv url: http://arxiv.org/abs/2410.06913v2
- Date: Mon, 18 Nov 2024 13:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:42.943806
- Title: Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning
- Title(参考訳): 対流に踏み込む前の流れを生かして : 拒否意識学習のための知識フローの確実性
- Authors: Runchuan Zhu, Zhipeng Ma, Jiang Wu, Junyuan Gao, Jiaqi Wang, Dahua Lin, Conghui He,
- Abstract要約: Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
RAITは、初期LCMの応答の正しさに基づいてトレーニングサンプルを変更する。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
- 参考スコア(独自算出の注目度): 68.57166425493283
- License:
- Abstract: Refusal-Aware Instruction Tuning (RAIT) enables Large Language Models (LLMs) to refuse to answer unknown questions. By modifying responses of unknown questions in the training data to refusal responses such as "I don't know", RAIT enhances the reliability of LLMs and reduces their hallucination. Generally, RAIT modifies training samples based on the correctness of the initial LLM's response. However, this crude approach can cause LLMs to excessively refuse answering questions they could have correctly answered, the problem we call over-refusal. In this paper, we explore two primary causes of over-refusal: Static conflict occurs when similar samples within the LLM's feature space receive differing supervision signals (original vs. modified "I don't know"). Dynamic conflict, on the other hand, emerges as the LLM's knowledge evolves during SFT, allowing it to answer questions that were previously unanswerable. Yet, these now-answerable training samples still retain the original "I don't know" supervision signals based on the initial LLM state, resulting in inconsistencies. These conflicts cause the trained LLM to misclassify known questions as unknown, resulting in over-refusal. To address this issue, we introduce Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning (CRaFT). CRaFT centers on two main contributions: First, we additionally incorporate response certainty to selectively filter and modify data, reducing static conflicts. Second, we implement preliminary rehearsal training to characterize changes in the LLM's knowledge state, which helps mitigate dynamic conflicts during the fine-tuning process. We conducted extensive experiments on open-ended question answering and multiple-choice question task. Experiment results show that CRaFT can improve LLM's overall performance during the RAIT process. Source code and training data will be released at Github.
- Abstract(参考訳): Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
学習データ中の未知の質問の応答を「私は知らない」などの反応を拒否するために修正することにより、RAITはLLMの信頼性を高め、幻覚を減少させる。
一般に、RAITは初期LSM応答の正しさに基づいてトレーニングサンプルを変更する。
しかし、この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
本稿では,LLMの特徴空間内の類似したサンプルが異なる監視信号(オリジナルと修正された"私は知らない")を受信した場合に,静的な衝突が発生する2つの主な原因について検討する。
一方、ダイナミックコンフリクトは、LLMの知識がSFTの間に進化するにつれて出現し、以前は解決不可能だった質問に答えることを可能にする。
しかし、これらの未解決のトレーニングサンプルは、初期LSM状態に基づいて元の"I don't know"監視信号を保持しており、結果として矛盾が生じている。
これらの対立は、訓練されたLLMが既知の質問を未知のものとして誤分類し、過度に拒絶する原因となる。
この問題に対処するため,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
CRaFTは2つの主要なコントリビューションに重点を置いている。 まず、データを選択的にフィルタリングし、修正し、静的なコンフリクトを減らすために、応答の確実性も追加する。
第2に,LLMの知識状態の変化を特徴付けるための予備的リハーサルトレーニングを実施し,微調整過程における動的衝突を軽減する。
オープンエンド質問応答と複数選択質問課題について広範な実験を行った。
実験の結果, CRaFT は RAIT プロセスにおける LLM の全体的な性能を向上できることがわかった。
ソースコードとトレーニングデータはGithubで公開される。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Post-training an LLM for RAG? Train on Self-Generated Demonstrations [18.8726880078299]
大規模言語モデル(LLM)は知識集約型NLPタスクとしばしば競合する。
検索拡張生成(RAG)は、モデルがコンテキスト内情報を利用することを可能にする。
自己生成型実演を用いたRAG対応LDMの学習法を提案する。
論文 参考訳(メタデータ) (2025-02-14T23:00:49Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。