論文の概要: Prompting GPT-3 To Be Reliable
- arxiv url: http://arxiv.org/abs/2210.09150v1
- Date: Mon, 17 Oct 2022 14:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:44:12.194327
- Title: Prompting GPT-3 To Be Reliable
- Title(参考訳): gpt-3の信頼性向上
- Authors: Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang,
Jordan Boyd-Graber, Lijuan Wang
- Abstract要約: この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 117.23966502293796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show impressive abilities via few-shot
prompting. Commercialized APIs such as OpenAI GPT-3 further increase their use
in real-world language applications. However, existing research focuses on
models' accuracy on standard benchmarks and largely ignores their reliability,
which is crucial for avoiding catastrophic real-world harms. While reliability
is a broad and vaguely defined term, this work decomposes reliability into four
facets: generalizability, fairness, calibration, and factuality. We establish
simple and effective prompts to demonstrate GPT-3's reliability in these four
aspects: 1) generalize out-of-domain, 2) balance demographic distribution to
reduce social biases, 3) calibrate language model probabilities, and 4) update
the LLM's knowledge. We find that by employing appropriate prompts, GPT-3
outperforms smaller-scale supervised models by large margins on all these
facets. We release all processed datasets, evaluation scripts, and model
predictions to facilitate future analysis. Our findings not only shed new
insights on the reliability of prompting LLMs, but more importantly, our
prompting strategies can help practitioners more reliably use large language
models like GPT-3.
- Abstract(参考訳): 大きな言語モデル(LLM)は、数発のプロンプトによって印象的な能力を示す。
OpenAI GPT-3のような商用APIは、現実世界の言語アプリケーションでの使用をさらに増やしている。
しかし、既存の研究は標準ベンチマークにおけるモデルの精度に重点を置いており、その信頼性は無視されている。
信頼性は広くあいまいに定義された用語であるが、この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
これら4つの側面においてGPT-3の信頼性を示すためのシンプルで効果的なプロンプトを確立する。
1)ドメイン外を一般化する。
2)社会バイアスを減らすために人口分布のバランスをとる。
3)言語モデル確率の校正,及び
4) LLMの知識を更新する。
適切なプロンプトを用いることで、GPT-3はこれら全ての面において、より小規模な教師付きモデルよりも優れた性能を発揮する。
将来の分析を容易にするために、すべての処理されたデータセット、評価スクリプト、モデル予測をリリースします。
我々の発見は、LSMの信頼性に関する新たな洞察を隠蔽するだけでなく、より重要なことは、実践者がGPT-3のような大きな言語モデルをより確実に活用するのに役立てることができるということです。
関連論文リスト
- Multimodal Large Language Models to Support Real-World Fact-Checking [87.84266975165305]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Global-Liar: Factuality of LLMs over Time and Geographic Regions [3.715487408753612]
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
論文 参考訳(メタデータ) (2024-01-31T13:57:24Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z) - Towards Reliable Misinformation Mitigation: Generalization, Uncertainty,
and GPT-4 [5.313670352036673]
GPT-4は,複数の設定や言語で先行手法より優れていることを示す。
本研究では,不可能な事例を検出し,その結果を強く改善する不確実性に対処する手法を提案する。
この研究は、偽情報と戦うために現実世界の進歩を促す将来のツールの基盤となる。
論文 参考訳(メタデータ) (2023-05-24T09:10:20Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。