論文の概要: R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- arxiv url: http://arxiv.org/abs/2311.09677v1
- Date: Thu, 16 Nov 2023 08:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:32:19.203677
- Title: R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- Title(参考訳): R-Tuning: 未知の疑問を解消するために大規模言語モデルを教える
- Authors: Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian, Xingyao
Wang, Yangyi Chen, Heng Ji, Tong Zhang
- Abstract要約: 我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
- 参考スコア(独自算出の注目度): 68.60002086172133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized numerous domains with their
impressive performance but still face their challenges. A predominant issue is
the propensity for these models to generate non-existent facts, a concern
termed hallucination. Our research is motivated by the observation that
previous instruction tuning methods force the model to complete a sentence no
matter whether the model knows the knowledge or not. When the question is out
of the parametric knowledge, it will try to make up something and fail to
indicate when it lacks knowledge. In this paper, we present a new approach
called Refusal-Aware Instruction Tuning (R-Tuning). This approach is formalized
by first identifying the knowledge gap between parametric knowledge and the
instruction tuning data. Then, we construct the refusal-aware data based on the
knowledge intersection, to tune LLMs to refrain from responding to questions
beyond its parametric knowledge. Experimental results demonstrate this new
instruction tuning approach effectively improves a model's ability to answer
known questions and refrain from answering unknown questions. Furthermore, when
tested on out-of-domain datasets, the refusal ability was found to be a
meta-skill that could be generalized to other tasks. Further analysis
surprisingly finds that learning the uncertainty during training displays a
better ability to estimate uncertainty than uncertainty-based testing. Our code
will be released at https://github.com/shizhediao/R-Tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
主な問題は、これらのモデルが存在しない事実を生み出す傾向であり、幻覚と呼ばれる。
本研究は,先行する命令調律手法が,モデルが知識を知っていなくても文を完結させるという観察に動機づけられている。
質問がパラメトリックな知識から外れている場合、何かを作り上げて、それが知識を欠いていることを示そうとしないでしょう。
本稿では,Refusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しい手法を提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータとの知識ギャップを特定することで定式化される。
そして,知識交叉に基づく拒絶認識データを構築し,そのパラメトリック知識を超えた質問への応答を抑えるためにLLMをチューニングする。
実験の結果、この新しい命令チューニング手法は、既知の質問に答え、未知の質問に答えることを控えるモデルの能力を効果的に改善することを示しています。
さらに、ドメイン外データセットでテストすると、拒否能力は他のタスクに一般化可能なメタスキルであることが判明した。
さらなる分析の結果、トレーニング中に不確実性を学ぶことは、不確実性に基づくテストよりも不確実性を推定する能力を示すことがわかった。
私たちのコードはhttps://github.com/shizhediao/R-Tuning.comでリリースされます。
関連論文リスト
- Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges [11.228131492745842]
大規模言語モデル(LLM)は、自然言語処理における新しい研究パラダイムを刺激している。
知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する可能性は、悪意のあるアプリケーションにリスクをもたらす。
機械学習の類似研究から派生した知識アンラーニングは、この問題に対処するための有望な道を示す。
論文 参考訳(メタデータ) (2023-11-27T12:37:51Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - DisentQA: Disentangling Parametric and Contextual Knowledge with
Counterfactual Question Answering [34.70206857546496]
質問応答モデルは通常、推論時間中に「知識」の2つのソースにアクセスする。
答えが与えられた非パラメトリック知識に由来するかどうかは不明である。
本稿では,2つの知識源を解き放つために,QAモデルを訓練する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-11-10T15:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。