論文の概要: Prompting GPT-3 To Be Reliable
- arxiv url: http://arxiv.org/abs/2210.09150v1
- Date: Mon, 17 Oct 2022 14:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:44:12.194327
- Title: Prompting GPT-3 To Be Reliable
- Title(参考訳): gpt-3の信頼性向上
- Authors: Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang,
Jordan Boyd-Graber, Lijuan Wang
- Abstract要約: この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 117.23966502293796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show impressive abilities via few-shot
prompting. Commercialized APIs such as OpenAI GPT-3 further increase their use
in real-world language applications. However, existing research focuses on
models' accuracy on standard benchmarks and largely ignores their reliability,
which is crucial for avoiding catastrophic real-world harms. While reliability
is a broad and vaguely defined term, this work decomposes reliability into four
facets: generalizability, fairness, calibration, and factuality. We establish
simple and effective prompts to demonstrate GPT-3's reliability in these four
aspects: 1) generalize out-of-domain, 2) balance demographic distribution to
reduce social biases, 3) calibrate language model probabilities, and 4) update
the LLM's knowledge. We find that by employing appropriate prompts, GPT-3
outperforms smaller-scale supervised models by large margins on all these
facets. We release all processed datasets, evaluation scripts, and model
predictions to facilitate future analysis. Our findings not only shed new
insights on the reliability of prompting LLMs, but more importantly, our
prompting strategies can help practitioners more reliably use large language
models like GPT-3.
- Abstract(参考訳): 大きな言語モデル(LLM)は、数発のプロンプトによって印象的な能力を示す。
OpenAI GPT-3のような商用APIは、現実世界の言語アプリケーションでの使用をさらに増やしている。
しかし、既存の研究は標準ベンチマークにおけるモデルの精度に重点を置いており、その信頼性は無視されている。
信頼性は広くあいまいに定義された用語であるが、この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
これら4つの側面においてGPT-3の信頼性を示すためのシンプルで効果的なプロンプトを確立する。
1)ドメイン外を一般化する。
2)社会バイアスを減らすために人口分布のバランスをとる。
3)言語モデル確率の校正,及び
4) LLMの知識を更新する。
適切なプロンプトを用いることで、GPT-3はこれら全ての面において、より小規模な教師付きモデルよりも優れた性能を発揮する。
将来の分析を容易にするために、すべての処理されたデータセット、評価スクリプト、モデル予測をリリースします。
我々の発見は、LSMの信頼性に関する新たな洞察を隠蔽するだけでなく、より重要なことは、実践者がGPT-3のような大きな言語モデルをより確実に活用するのに役立てることができるということです。
関連論文リスト
- Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文 参考訳(メタデータ) (2024-09-21T06:48:32Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Global-Liar: Factuality of LLMs over Time and Geographic Regions [3.715487408753612]
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
論文 参考訳(メタデータ) (2024-01-31T13:57:24Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z) - Towards Reliable Misinformation Mitigation: Generalization, Uncertainty,
and GPT-4 [5.313670352036673]
GPT-4は,複数の設定や言語で先行手法より優れていることを示す。
本研究では,不可能な事例を検出し,その結果を強く改善する不確実性に対処する手法を提案する。
この研究は、偽情報と戦うために現実世界の進歩を促す将来のツールの基盤となる。
論文 参考訳(メタデータ) (2023-05-24T09:10:20Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。