論文の概要: Employing Label Models on ChatGPT Answers Improves Legal Text Entailment
Performance
- arxiv url: http://arxiv.org/abs/2401.17897v1
- Date: Wed, 31 Jan 2024 15:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:17:31.636000
- Title: Employing Label Models on ChatGPT Answers Improves Legal Text Entailment
Performance
- Title(参考訳): ChatGPT Answersにおけるラベルモデルの適用により, 法文挿入性能が向上する
- Authors: Chau Nguyen and Le-Minh Nguyen
- Abstract要約: ChatGPTは多くの自然言語処理タスクにおいて堅牢である。
ラベルモデルを用いて、ChatGPTによる仮回答を統合ラベルに統合する。
実験の結果、このアプローチは76.15%の精度を達成でき、従来の最先端ベンチマークに比べて8.26%の大幅な改善が達成された。
- 参考スコア(独自算出の注目度): 5.484345596034158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of legal text entailment is to ascertain whether the assertions
in a legal query logically follow from the information provided in one or
multiple legal articles. ChatGPT, a large language model, is robust in many
natural language processing tasks, including legal text entailment: when we set
the temperature = 0 (the ChatGPT answers are deterministic) and prompt the
model, it achieves 70.64% accuracy on COLIEE 2022 dataset, which outperforms
the previous SOTA of 67.89%. On the other hand, if the temperature is larger
than zero, ChatGPT answers are not deterministic, leading to inconsistent
answers and fluctuating results. We propose to leverage label models (a
fundamental component of weak supervision techniques) to integrate the
provisional answers by ChatGPT into consolidated labels. By that way, we treat
ChatGPT provisional answers as noisy predictions which can be consolidated by
label models. The experimental results demonstrate that this approach can
attain an accuracy of 76.15%, marking a significant improvement of 8.26% over
the prior state-of-the-art benchmark. Additionally, we perform an analysis of
the instances where ChatGPT produces incorrect answers, then we classify the
errors, offering insights that could guide potential enhancements for future
research endeavors.
- Abstract(参考訳): 法的内容の包含の目的は、法的クエリの主張が、1つまたは複数の法的記事が提供する情報から論理的に従うかどうかを確認することである。
温度 = 0(ChatGPTの解答は決定論的)を設定してモデルを促すと、COLIEE 2022データセット上で70.64%の精度を達成し、以前のSOTAの67.89%を上回った。
一方、温度が0より大きい場合、chatgptの回答は決定論的ではなく、一貫性のない回答と変動する結果をもたらす。
本稿では,ChatGPTによる仮回答を統合ラベルに統合するために,ラベルモデル(弱い監視手法の基本コンポーネント)を活用することを提案する。
このようにして、ChatGPT暫定回答をラベルモデルにより統合可能なノイズ予測として扱う。
実験の結果、このアプローチは76.15%の精度を達成でき、以前の最先端ベンチマークと比べて8.26%の大幅な改善が得られた。
さらに、ChatGPTが誤った回答を生成する場合の分析を行い、次にエラーを分類し、将来の研究活動の潜在的な拡張を導く洞察を提供する。
関連論文リスト
- Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version) [26.643834593780007]
ソーシャルコンピューティングタスクにおいてChatGPTがデータアノテートできる範囲について検討する。
ChatGPTは、いくつかの課題があるにもかかわらず、データアノテーションタスクの処理における約束を示す。
本稿では,ChatGPTが与えられたアノテーションタスクのデータを正しくラベル付けできるかどうかを予測するツールであるGPT-Raterを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:04:30Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Evaluating ChatGPT's Information Extraction Capabilities: An Assessment
of Performance, Explainability, Calibration, and Faithfulness [18.945934162722466]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。
標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。
ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文 参考訳(メタデータ) (2023-04-23T12:33:18Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction
Benchmark [11.36853733574956]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。
商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。
また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-03-15T00:35:50Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。