論文の概要: Linguistic Calibration of Long-Form Generations
- arxiv url: http://arxiv.org/abs/2404.00474v2
- Date: Tue, 4 Jun 2024 22:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:30:45.595371
- Title: Linguistic Calibration of Long-Form Generations
- Title(参考訳): 長期世代の言語校正
- Authors: Neil Band, Xuechen Li, Tengyu Ma, Tatsunori Hashimoto,
- Abstract要約: 言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。
この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、評価された信頼度のある長文を生成できない。
LMは、その世代がユーザがキャリブレーションされた確率予測を行えるようにすれば、言語的にキャリブレーションされる。
- 参考スコア(独自算出の注目度): 57.836339732160916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) may lead their users to make suboptimal downstream decisions when they confidently hallucinate. This issue can be mitigated by having the LM verbally convey the probability that its claims are correct, but existing models cannot produce long-form text with calibrated confidence statements. Through the lens of decision-making, we define linguistic calibration for long-form generations: an LM is linguistically calibrated if its generations enable its users to make calibrated probabilistic predictions. This definition enables a training framework where a supervised finetuning step bootstraps an LM to emit long-form generations with confidence statements such as "I estimate a 30% chance of..." or "I am certain that...", followed by a reinforcement learning step which rewards generations that enable a user to provide calibrated answers to related questions. We linguistically calibrate Llama 2 7B and find in automated and human evaluations of long-form generations that it is significantly more calibrated than strong finetuned factuality baselines with comparable accuracy. These findings generalize under significant domain shifts to scientific and biomedical questions and to an entirely held-out person biography generation task. Our results demonstrate that long-form generations may be calibrated end-to-end by constructing an objective in the space of the predictions that users make in downstream decision-making.
- Abstract(参考訳): 言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。
この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、評価された信頼度のある長文を生成できない。
LMは,その世代がユーザによるキャリブレーション確率予測を可能にした場合に,言語的にキャリブレーションされる。
この定義により、監督された微調整ステップがLMをブートストラップして「私は30%の確率で...」や「確実に...」といった自信のある文で長文世代を出力する訓練フレームワークが実現され、続いて、ユーザが関連する質問に対してキャリブレーションされた回答を提供できる世代を報奨する強化学習ステップが実現される。
我々はLlama 2 7Bを言語的に校正し,Llama 2 7Bの精度を比較検討した。
これらの知見は、科学的・生医学的な問題への大きなドメインシフトと、完全に保持された人体バイオグラフィー生成タスクに一般化される。
以上の結果から,下流の意思決定においてユーザが行う予測の空間における目的を構築することにより,長大な世代をエンド・ツー・エンドにキャリブレーションできる可能性が示唆された。
関連論文リスト
- Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Predict the Next Word: Humans exhibit uncertainty in this task and language models _____ [7.581259361859477]
言語モデル(LM)は、人間の生成したテキストに確率を割り当てるように訓練されている。
我々は、この事実を利用して、人間が「次の単語予測」タスクで示す変動性を再現するLMの能力を評価する。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
論文 参考訳(メタデータ) (2024-02-27T14:11:32Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - On the application of Large Language Models for language teaching and
assessment technology [18.735612275207853]
我々は,AIによる言語教育とアセスメントシステムに大規模言語モデルを導入する可能性を検討する。
より大きな言語モデルは、テキスト生成における以前のモデルよりも改善されていることがわかった。
自動階調と文法的誤り訂正において、よく知られたベンチマークで進捗が確認されたタスクについては、初期の調査では、彼ら自身の大きな言語モデルが最先端の結果を改善していないことが示されている。
論文 参考訳(メタデータ) (2023-07-17T11:12:56Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。
より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。
そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T17:16:43Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。