論文の概要: Is Information Extraction Solved by ChatGPT? An Analysis of Performance,
Evaluation Criteria, Robustness and Errors
- arxiv url: http://arxiv.org/abs/2305.14450v1
- Date: Tue, 23 May 2023 18:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:04:49.409976
- Title: Is Information Extraction Solved by ChatGPT? An Analysis of Performance,
Evaluation Criteria, Robustness and Errors
- Title(参考訳): ChatGPTによって情報抽出は解決されるか?
性能・評価基準・ロバスト性・誤りの分析
- Authors: Ridong Han, Tao Peng, Chaohao Yang, Benyou Wang, Lu Liu, Xiang Wan
- Abstract要約: 最初にChatGPTのパフォーマンスを、ゼロショット、少数ショット、チェーンオブ思考のシナリオの下で14のIEサブタスクを持つ17のデータセットで評価した。
次に、14のIEサブタスクにおけるChatGPTのロバスト性を分析し、1)ChatGPTが無効な応答をほとんど出力しないこと、2)ChatGPTの性能に関係のないコンテキストと長期ターゲットタイプが大きな影響を与えること、3)ChatGPTはREタスクにおける主観的対象関係をうまく理解できないこと、を見出した。
- 参考スコア(独自算出の注目度): 14.911130381374793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT has stimulated the research boom in the field of large language
models. In this paper, we assess the capabilities of ChatGPT from four
perspectives including Performance, Evaluation Criteria, Robustness and Error
Types. Specifically, we first evaluate ChatGPT's performance on 17 datasets
with 14 IE sub-tasks under the zero-shot, few-shot and chain-of-thought
scenarios, and find a huge performance gap between ChatGPT and SOTA results.
Next, we rethink this gap and propose a soft-matching strategy for evaluation
to more accurately reflect ChatGPT's performance. Then, we analyze the
robustness of ChatGPT on 14 IE sub-tasks, and find that: 1) ChatGPT rarely
outputs invalid responses; 2) Irrelevant context and long-tail target types
greatly affect ChatGPT's performance; 3) ChatGPT cannot understand well the
subject-object relationships in RE task. Finally, we analyze the errors of
ChatGPT, and find that "unannotated spans" is the most dominant error type.
This raises concerns about the quality of annotated data, and indicates the
possibility of annotating data with ChatGPT. The data and code are released at
Github site.
- Abstract(参考訳): ChatGPTは大規模言語モデルの分野での研究ブームを刺激している。
本稿では,パフォーマンス,評価基準,ロバスト性,エラータイプといった4つの観点からChatGPTの能力を評価する。
具体的には、ChatGPTの性能を、ゼロショット、少数ショット、チェーンオブ思考シナリオの下で、14のIEサブタスクを持つ17のデータセットで評価し、ChatGPTとSOTAの結果の間に大きなパフォーマンスギャップを見出した。
次に,このギャップを再考し,chatgptの性能をより正確に反映するソフトマッチング戦略を提案する。
そして、14のIEサブタスクにおけるChatGPTの堅牢性を分析し、それを見つける。
1) ChatGPTは、まれに無効応答を出力する。
2)ChatGPTの性能に関係のないコンテキストと長期目標タイプが大きな影響を与える。
3) ChatGPTはREタスクの主観的対象関係をよく理解できない。
最後に、ChatGPTのエラーを分析し、"unannotated spans"が最も重要なエラータイプであることを示す。
これにより、アノテートされたデータの品質に対する懸念が高まり、ChatGPTでアノテートされたデータの可能性を示す。
データとコードはgithubサイトで公開されている。
関連論文リスト
- An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2024-08-31T07:10:16Z) - A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。
MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。
評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。
これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。