論文の概要: Linguistic Calibration of Language Models
- arxiv url: http://arxiv.org/abs/2404.00474v1
- Date: Sat, 30 Mar 2024 20:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:30:20.112636
- Title: Linguistic Calibration of Language Models
- Title(参考訳): 言語モデルの言語校正
- Authors: Neil Band, Xuechen Li, Tengyu Ma, Tatsunori Hashimoto,
- Abstract要約: 言語モデルの長大な世代に対する言語キャリブレーションを形式化する。
教師付き微調整ステップはLMをブートストラップして、自信のある文で長文世代を出力する。
下流の意思決定においてユーザが行う予測の領域で目標を構築することにより、長大な世代がエンドツーエンドに校正されることが分かる。
- 参考スコア(独自算出の注目度): 57.836339732160916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) may lead their users to make suboptimal downstream decisions when they confidently hallucinate. This issue can be mitigated by having the LM verbally convey the probability that its claims are correct, but existing models cannot produce text with calibrated confidence statements. Through the lens of decision-making, we formalize linguistic calibration for long-form generations: an LM is linguistically calibrated if its generations enable its users to make calibrated probabilistic predictions. This definition enables a training framework where a supervised finetuning step bootstraps an LM to emit long-form generations with confidence statements such as "I estimate a 30% chance of..." or "I am certain that...", followed by a reinforcement learning step which rewards generations that enable a user to provide calibrated answers to related questions. We linguistically calibrate Llama 2 7B and find in automated and human evaluations of long-form generations that it is significantly more calibrated than strong finetuned factuality baselines with comparable accuracy. These findings generalize under distribution shift on question-answering and under a significant task shift to person biography generation. Our results demonstrate that long-form generations may be calibrated end-to-end by constructing an objective in the space of the predictions that users make in downstream decision-making.
- Abstract(参考訳): 言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。
この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、正当性のある文章を生成することはできない。
意思決定のレンズを通して、長文世代に対する言語的キャリブレーションを定式化する: LMは、その世代がユーザがキャリブレーションされた確率予測を行えるようにすれば、言語的にキャリブレーションされる。
この定義により、監督された微調整ステップがLMをブートストラップして「私は30%の確率で...」や「確実に...」といった自信のある文で長文世代を出力する訓練フレームワークが実現され、続いて、ユーザが関連する質問に対してキャリブレーションされた回答を提供できる世代を報奨する強化学習ステップが実現される。
我々はLlama 2 7Bを言語的に校正し,Llama 2 7Bの精度を比較検討した。
これらの知見は,質問応答の分布シフトおよび人物の伝記生成への重要なタスクシフトの下で一般化される。
以上の結果から,下流の意思決定においてユーザが行う予測の空間における目的を構築することにより,長大な世代をエンド・ツー・エンドにキャリブレーションできる可能性が示唆された。
関連論文リスト
- Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown [55.91887554462312]
様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文では事実性スコアが低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
高い自己知識スコアと改善された事実性との間には相関関係がみられ,高い自己未知スコアは低い事実性と関連している。
論文 参考訳(メタデータ) (2024-11-24T22:06:26Z) - On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Finetuning Language Models to Emit Linguistic Expressions of Uncertainty [5.591074369497796]
大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。
LLMは現実世界の事実と矛盾する情報を生成する傾向があり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。
本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。
論文 参考訳(メタデータ) (2024-09-18T17:52:53Z) - Multi-group Uncertainty Quantification for Long-form Text Generation [29.65035492536852]
長文の自然言語生成における事実的正当性の不確実性定量化の問題について検討する。
このような不確実性を保証するために,マルチキャリブレーションとマルチバリッドコンフォメーション予測を起動する。
論文 参考訳(メタデータ) (2024-07-25T02:59:52Z) - Predict the Next Word: Humans exhibit uncertainty in this task and language models _____ [7.581259361859477]
言語モデル(LM)は、人間の生成したテキストに確率を割り当てるように訓練されている。
我々は、この事実を利用して、人間が「次の単語予測」タスクで示す変動性を再現するLMの能力を評価する。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
論文 参考訳(メタデータ) (2024-02-27T14:11:32Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。
より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。
そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T17:16:43Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。