論文の概要: R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- arxiv url: http://arxiv.org/abs/2311.09677v1
- Date: Thu, 16 Nov 2023 08:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:32:19.203677
- Title: R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- Title(参考訳): R-Tuning: 未知の疑問を解消するために大規模言語モデルを教える
- Authors: Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian, Xingyao
Wang, Yangyi Chen, Heng Ji, Tong Zhang
- Abstract要約: 我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
- 参考スコア(独自算出の注目度): 68.60002086172133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized numerous domains with their
impressive performance but still face their challenges. A predominant issue is
the propensity for these models to generate non-existent facts, a concern
termed hallucination. Our research is motivated by the observation that
previous instruction tuning methods force the model to complete a sentence no
matter whether the model knows the knowledge or not. When the question is out
of the parametric knowledge, it will try to make up something and fail to
indicate when it lacks knowledge. In this paper, we present a new approach
called Refusal-Aware Instruction Tuning (R-Tuning). This approach is formalized
by first identifying the knowledge gap between parametric knowledge and the
instruction tuning data. Then, we construct the refusal-aware data based on the
knowledge intersection, to tune LLMs to refrain from responding to questions
beyond its parametric knowledge. Experimental results demonstrate this new
instruction tuning approach effectively improves a model's ability to answer
known questions and refrain from answering unknown questions. Furthermore, when
tested on out-of-domain datasets, the refusal ability was found to be a
meta-skill that could be generalized to other tasks. Further analysis
surprisingly finds that learning the uncertainty during training displays a
better ability to estimate uncertainty than uncertainty-based testing. Our code
will be released at https://github.com/shizhediao/R-Tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
主な問題は、これらのモデルが存在しない事実を生み出す傾向であり、幻覚と呼ばれる。
本研究は,先行する命令調律手法が,モデルが知識を知っていなくても文を完結させるという観察に動機づけられている。
質問がパラメトリックな知識から外れている場合、何かを作り上げて、それが知識を欠いていることを示そうとしないでしょう。
本稿では,Refusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しい手法を提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータとの知識ギャップを特定することで定式化される。
そして,知識交叉に基づく拒絶認識データを構築し,そのパラメトリック知識を超えた質問への応答を抑えるためにLLMをチューニングする。
実験の結果、この新しい命令チューニング手法は、既知の質問に答え、未知の質問に答えることを控えるモデルの能力を効果的に改善することを示しています。
さらに、ドメイン外データセットでテストすると、拒否能力は他のタスクに一般化可能なメタスキルであることが判明した。
さらなる分析の結果、トレーニング中に不確実性を学ぶことは、不確実性に基づくテストよりも不確実性を推定する能力を示すことがわかった。
私たちのコードはhttps://github.com/shizhediao/R-Tuning.comでリリースされます。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.283963879468466]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚のような課題に直面している。
本研究では,モデルの知識境界を認識する能力を向上させるために,不確実性感性チューニングと呼ばれる新しい手法を提案する。
実験結果から,提案手法が不確実性領域の同定能力を高めることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:56:04Z) - Outdated Issue Aware Decoding for Reasoning Questions on Edited Knowledge [93.54427119091174]
本稿では,従来のISsueを意識した復号化手法を提案する。
元のモデルと編集されたモデルとの確率分布の差を捉える。
我々は、古くなった問題を緩和するために、編集されたモデルにおけるトークン予測の違いを増幅する。
論文 参考訳(メタデータ) (2024-06-05T03:00:15Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。