論文の概要: Program-Aided Reasoners (better) Know What They Know
- arxiv url: http://arxiv.org/abs/2311.09553v1
- Date: Thu, 16 Nov 2023 04:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:38:35.612281
- Title: Program-Aided Reasoners (better) Know What They Know
- Title(参考訳): プログラム支援推論(better)は、自分が知っていることを知っている
- Authors: Anubha Kabra, Sanketh Rangreji, Yash Mathur, Aman Madaan, Emmy Liu,
Graham Neubig
- Abstract要約: プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。
以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
- 参考スコア(独自算出の注目度): 59.29201607431494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work shows that program-aided reasoning, in which large language models
(LLMs) are combined with programs written in programming languages such as
Python, can significantly improve accuracy on various reasoning tasks. However,
while accuracy is essential, it is also important for such reasoners to "know
what they know", which can be quantified through the calibration of the model.
In this paper, we compare the calibration of Program Aided Language Models
(PAL) and text-based Chain-of-thought (COT) prompting techniques over 5
datasets and 2 model types: LLaMA models and OpenAI models. Our results
indicate that PAL leads to improved calibration in 75% of the instances. Our
analysis uncovers that prompting styles that produce lesser diversity in
generations also have more calibrated results, and thus we also experiment with
inducing lower generation diversity using temperature scaling and find that for
certain temperatures, PAL is not only more accurate but is also more calibrated
than COT. Overall, we demonstrate that, in the majority of cases, program-aided
reasoners better know what they know than text-based counterparts.
- Abstract(参考訳): 以前の研究は、大規模言語モデル(LLM)とPythonのようなプログラミング言語で記述されたプログラムが組み合わさったプログラム支援推論が、様々な推論タスクの精度を大幅に向上させることを示した。
しかし、正確性は不可欠であるが、そのような推論者はモデルの校正によって定量化できる「知っていることを知る」ことも重要である。
本稿では,プログラム支援言語モデル(PAL)とテキストベースのChain-of-Thought(COT)のキャリブレーションを比較し,LLaMAモデルとOpenAIモデルという5つのデータセットと2つのモデルタイプにまたがる手法を提案する。
以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
解析の結果、世代ごとの多様性を低下させるスタイルも校正結果が得られており、温度スケーリングを用いて低い世代多様性を誘導する実験を行い、特定の温度においてPALはより正確であるだけでなく、COTよりも校正されていることがわかった。
全体として、ほとんどのケースにおいて、プログラム支援の理性者は、テキストベースの理性よりも自分が知っていることをよく知っている。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - LitCab: Lightweight Language Model Calibration over Short- and Long-form
Responses [14.77013588561901]
本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabを提案する。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
論文 参考訳(メタデータ) (2023-10-30T00:30:34Z) - On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。
まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。
また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-10-21T21:41:56Z) - Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1~4%でBERT-Miniよりも悪い。
ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。
以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文 参考訳(メタデータ) (2021-05-13T01:10:51Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。