論文の概要: Granting GPT-4 License and Opportunity: Enhancing Accuracy and Confidence Estimation for Few-Shot Event Detection
- arxiv url: http://arxiv.org/abs/2408.00914v1
- Date: Thu, 1 Aug 2024 21:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:56:17.927532
- Title: Granting GPT-4 License and Opportunity: Enhancing Accuracy and Confidence Estimation for Few-Shot Event Detection
- Title(参考訳): GPT-4ライセンスの付与とオポチュニティ:Few-Shotイベント検出の精度向上と信頼度推定
- Authors: Steven Fincke, Adrien Bibal, Elizabeth Boschee,
- Abstract要約: 大規模言語モデル(LLM)は、"銀"データの生成に使用を提案するために、数ショットの学習コンテキストで十分な可能性を示している。
信頼度推定は、GPT-4のようなモデルの弱点を文書化したものである。
本研究は,車両としてのBETTERライセンスにおけるイベント検出のための少数ショット学習によるGPT-4による効果的な信頼度推定手法について検討する。
- 参考スコア(独自算出の注目度): 6.718542027371254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as GPT-4 have shown enough promise in the few-shot learning context to suggest use in the generation of "silver" data and refinement of new ontologies through iterative application and review. Such workflows become more effective with reliable confidence estimation. Unfortunately, confidence estimation is a documented weakness of models such as GPT-4, and established methods to compensate require significant additional complexity and computation. The present effort explores methods for effective confidence estimation with GPT-4 with few-shot learning for event detection in the BETTER ontology as a vehicle. The key innovation is expanding the prompt and task presented to GPT-4 to provide License to speculate when unsure and Opportunity to quantify and explain its uncertainty (L&O). This approach improves accuracy and provides usable confidence measures (0.759 AUC) with no additional machinery.
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)は、"銀"データの生成と、反復的なアプリケーションとレビューによる新しいオントロジの洗練を推奨するために、数ショットの学習コンテキストにおいて十分な可能性を示している。
このようなワークフローは信頼性評価によってより効果的になる。
残念なことに、信頼度推定はGPT-4のようなモデルの弱点を文書化したものであり、補うための確立された方法には、かなりの複雑さと計算が必要である。
本研究は,車両としてのBETTERオントロジーにおける事象検出のための数ショット学習によるGPT-4による効果的な信頼度推定手法について検討する。
鍵となるイノベーションは、GPT-4に提示されたプロンプトとタスクを拡張して、不確実性と不確実性(L&O)を定量化し説明するための機会を推測するライセンスを提供することである。
このアプローチは精度を向上し、追加の機械なしで使用可能な信頼度(0.759 AUC)を提供する。
関連論文リスト
- Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity [8.377398103067508]
本稿では、属性の精度を高めるために、属性指向のチェーン・オブ・ソート推論手法を提案する。
GPT-4を用いた2つの文脈付き質問応答データセットの評価により,属性の精度と正確性が改善された。
論文 参考訳(メタデータ) (2024-04-16T12:37:10Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Localization Uncertainty-Based Attention for Object Detection [8.154943252001848]
ガウスモデルを用いて, 4方向位置決めの不確かさを予測できる, より効率的な不確実性認識型高密度検出器 (UADET) を提案する。
MS COCOベンチマークを用いた実験によると、UADETはベースラインFCOSを一貫して上回り、最高のモデルであるResNext-64x4d-101-DCNは、COCOテストデーブで48.3%の単一スケールAPを得る。
論文 参考訳(メタデータ) (2021-08-25T04:32:39Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。