論文の概要: How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations?
- arxiv url: http://arxiv.org/abs/2404.05088v1
- Date: Sun, 7 Apr 2024 22:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:53:11.327559
- Title: How much reliable is ChatGPT's prediction on Information Extraction under Input Perturbations?
- Title(参考訳): 入力摂動下での情報抽出に関するChatGPTの予測はどの程度信頼できるか?
- Authors: Ishani Mondal, Abhilasha Sancheti,
- Abstract要約: 入力摂動下でのChatGPTの頑健さを情報抽出(IE)の最も基本的な課題の一つとして評価する。
自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTの頑健さを体系的に解析する。
1)ChatGPTは、広く知られている人や場所に関する摂動に比べ、薬物や疾患の代替品(希少物質)に弱いことが判明した。
- 参考スコア(独自算出の注目度): 14.815409733416358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we assess the robustness (reliability) of ChatGPT under input perturbations for one of the most fundamental tasks of Information Extraction (IE) i.e. Named Entity Recognition (NER). Despite the hype, the majority of the researchers have vouched for its language understanding and generation capabilities; a little attention has been paid to understand its robustness: How the input-perturbations affect 1) the predictions, 2) the confidence of predictions and 3) the quality of rationale behind its prediction. We perform a systematic analysis of ChatGPT's robustness (under both zero-shot and few-shot setup) on two NER datasets using both automatic and human evaluation. Based on automatic evaluation metrics, we find that 1) ChatGPT is more brittle on Drug or Disease replacements (rare entities) compared to the perturbations on widely known Person or Location entities, 2) the quality of explanations for the same entity considerably differ under different types of "Entity-Specific" and "Context-Specific" perturbations and the quality can be significantly improved using in-context learning, and 3) it is overconfident for majority of the incorrect predictions, and hence it could lead to misguidance of the end-users.
- Abstract(参考訳): 本稿では,情報抽出(IE)の最も基本的なタスクである名前付きエンティティ認識(NER)に対して,入力摂動下でのChatGPTの堅牢性(信頼性)を評価する。
誇大宣伝にもかかわらず、研究者の大多数は言語理解と生成能力について声を上げており、その頑丈さを理解するために少し注意を払っている。
1)予測。
2 予測の信任及び信任
3)その予測の背後にある根拠の質。
自動評価と人的評価の両方を用いて、2つのNERデータセット上でChatGPTのロバスト性(ゼロショットと少数ショットの両方設定)を体系的に解析する。
自動評価基準に基づくと,そのことが分かる。
1)ChatGPTは、広く知られている人や場所に関する摂動に比べて、薬物又は疾患の代替(まれな実体)に弱い。
2同じ実体に対する説明の質は「エンティティ・スペクティフィック」と「コンテキスト・スペクティフィック」の摂動の種類によって大きく異なり、文脈内学習を用いて品質を著しく改善することができる。
3)不正確な予測の大部分を過信しているため,エンドユーザの誤認につながる可能性がある。
関連論文リスト
- Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers [9.349442247982557]
モデルの信頼性や精度といった従来のメトリクスは、機械学習モデルに対する人間の信頼を構築するには不十分です。
予測帰属語が予測クラスに関連があるかどうかを自動的にチェックするTOKIを提案する。
また,TOKIが特定した信頼性問題を対象とした新たな敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T03:26:37Z) - An Evaluation of Explanation Methods for Black-Box Detectors of Machine-Generated Text [2.1439084103679273]
本研究では,機械生成テキストの検出器における説明品質の体系的評価を行った。
本稿では,ChatGPT生成および人文文書のデータセットと,それに対応する3つの既存言語モデルに基づく検出器のペア予測を利用する。
SHAPは, 信頼性, 安定性, 検知器の挙動を予測するのに最適であることがわかった。
論文 参考訳(メタデータ) (2024-08-26T13:14:26Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Tribrid: Stance Classification with Neural Inconsistency Detection [9.150728831518459]
本稿では,BERTなどのニューラルアーキテクチャを用いたソーシャルメディア上での自動姿勢分類を行う際の課題について検討する。
提案するニューラルアーキテクチャでは,任意のクレームに対して自動生成された否定的視点も含んでいる。
モデルは同時に複数の予測を行うように共同で学習され、元の視点の分類を改善するか、疑わしい予測をフィルタリングするために使用することができる。
論文 参考訳(メタデータ) (2021-09-14T08:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。