論文の概要: Can we trust the evaluation on ChatGPT?
- arxiv url: http://arxiv.org/abs/2303.12767v1
- Date: Wed, 22 Mar 2023 17:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:19:42.922492
- Title: Can we trust the evaluation on ChatGPT?
- Title(参考訳): ChatGPTの評価を信頼できますか?
- Authors: Rachith Aiyappa, Jisun An, Haewoon Kwak, Yong-Yeol Ahn
- Abstract要約: 大量導入した最初の大規模言語モデル(LLM)であるChatGPTは、多くの自然言語タスクにおいて顕著なパフォーマンスを示している。
様々な問題領域におけるChatGPTの性能評価は、モデルが閉じた性質のため、依然として困難である。
本稿では,ChatGPT評価におけるデータ汚染の問題点を,姿勢検出の課題を事例として取り上げる。
- 参考スコア(独自算出の注目度): 8.278618225536807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT, the first large language model (LLM) with mass adoption, has
demonstrated remarkable performance in numerous natural language tasks. Despite
its evident usefulness, evaluating ChatGPT's performance in diverse problem
domains remains challenging due to the closed nature of the model and its
continuous updates via Reinforcement Learning from Human Feedback (RLHF). We
highlight the issue of data contamination in ChatGPT evaluations, with a case
study of the task of stance detection. We discuss the challenge of preventing
data contamination and ensuring fair model evaluation in the age of closed and
continuously trained models.
- Abstract(参考訳): 最初の大規模言語モデル(llm)であるchatgptは、多数の自然言語タスクにおいて顕著なパフォーマンスを示している。
このモデルのクローズドな性質と、人間フィードバックからの強化学習(rlhf)による継続的な更新のため、様々な問題領域におけるchatgptの性能評価は依然として困難である。
本稿では,ChatGPT評価におけるデータ汚染の問題点を,姿勢検出の課題を事例として取り上げる。
本稿では,データ汚染防止の課題と,閉・連続学習モデルの時代における公平なモデル評価の確保について考察する。
関連論文リスト
- Using ChatGPT to Score Essays and Short-Form Constructed Responses [0.0]
線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点をあてた調査。
2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。
研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-08-18T16:51:28Z) - Is ChatGPT the Future of Causal Text Mining? A Comprehensive Evaluation
and Analysis [8.031131164056347]
本研究はChatGPTの因果テキストマイニング機能に関する総合的な評価を行う。
一般的な英語データセットを超えて拡張するベンチマークを導入する。
また、ChatGPTと従来のアプローチとの公正な比較を保証するための評価フレームワークも提供する。
論文 参考訳(メタデータ) (2024-02-22T12:19:04Z) - Can You Follow Me? Testing Situational Understanding in ChatGPT [17.52769657390388]
situational understanding (SU)は、人間のようなAIエージェントにとって重要な能力である。
チャット指向モデルにおけるSUテストのための新しい合成環境を提案する。
タスクの基本的な単純さにもかかわらず、モデルの性能は正しい環境状態を維持することができないことを反映している。
論文 参考訳(メタデータ) (2023-10-24T19:22:01Z) - ChatGPT for Suicide Risk Assessment on Social Media: Quantitative
Evaluation of Model Performance, Potentials and Limitations [5.8762433393846045]
本稿では,ソーシャルメディア投稿からの自殺評価の文脈において,対話型ChatGPTモデルを評価するための枠組みを提案する。
我々はZero-ShotとFew-Shot実験を用いてChatGPTの性能の技術的評価を行う。
以上の結果から,ChatGPTの精度は高いが,人間の注釈付きデータセットを微調整したトランスフォーマーモデルの方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T16:01:30Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。