論文の概要: Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT
and GPT-4 for Cost-Efficient Question Answering
- arxiv url: http://arxiv.org/abs/2306.05036v1
- Date: Thu, 8 Jun 2023 08:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:25:11.655974
- Title: Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT
and GPT-4 for Cost-Efficient Question Answering
- Title(参考訳): HCIの課題のマッピング:コスト効率の高い質問応答へのChatGPTとGPT-4の適用と評価
- Authors: Jonas Oppenlaender, Joonas H\"am\"al\"ainen
- Abstract要約: テキストコーパス上でのコスト効率の高い抽出質問応答のリアルタイムタスクに対して,ChatGPTとGPT-4を評価した。
我々は90以上の研究トピックにおいて4392の研究課題のインタラクティブな可視化に貢献する。
- 参考スコア(独自算出の注目度): 6.903929927172919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT and GPT-4, are gaining
wide-spread real world use. Yet, the two LLMs are closed source, and little is
known about the LLMs' performance in real-world use cases. In academia, LLM
performance is often measured on benchmarks which may have leaked into
ChatGPT's and GPT-4's training data. In this paper, we apply and evaluate
ChatGPT and GPT-4 for the real-world task of cost-efficient extractive question
answering over a text corpus that was published after the two LLMs completed
training. More specifically, we extract research challenges for researchers in
the field of HCI from the proceedings of the 2023 Conference on Human Factors
in Computing Systems (CHI). We critically evaluate the LLMs on this practical
task and conclude that the combination of ChatGPT and GPT-4 makes an excellent
cost-efficient means for analyzing a text corpus at scale. Cost-efficiency is
key for prototyping research ideas and analyzing text corpora from different
perspectives, with implications for applying LLMs in academia and practice. For
researchers in HCI, we contribute an interactive visualization of 4392 research
challenges in over 90 research topics. We share this visualization and the
dataset in the spirit of open science.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、広く普及している。
しかし、2つのLLMはクローズドソースであり、実世界のユースケースにおけるLLMの性能についてはほとんど分かっていない。
学術において、LCMのパフォーマンスは、ChatGPTとGPT-4のトレーニングデータにリークした可能性のあるベンチマークでしばしば測定される。
本稿では,2つのLLM学習終了後に出版されたテキストコーパスに対して,コスト効率の高い抽出質問応答の実際のタスクに対してChatGPTとGPT-4を適用し,評価する。
より具体的には、2023年のコンピュータシステムにおけるヒューマンファクター会議(CHI)の手続きから、HCI分野の研究者のための研究課題を抽出する。
本課題のllmを批判的に評価し,chatgptとgpt-4の組み合わせは,テキストコーパスを大規模に解析するための優れたコスト効率のよい手段であると結論づける。
費用効率は研究のアイデアをプロトタイピングし、異なる視点からテキストコーパスを分析し、学術や実践にLLMを適用する上で重要である。
HCIの研究者は、90以上の研究トピックで4392の研究課題をインタラクティブに可視化する。
この視覚化とデータセットをオープンサイエンスの精神で共有しています。
関連論文リスト
- See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Is ChatGPT a Good Multi-Party Conversation Solver? [42.939861319863795]
大規模言語モデル (LLM) は自然言語処理の領域において影響力のある道具として出現している。
本稿では,多人数会話におけるLLM生成の可能性について検討する。
実験により,ChatGPTとGPT-4のゼロショット学習能力を評価する。
論文 参考訳(メタデータ) (2023-10-25T02:18:40Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Summary of ChatGPT-Related Research and Perspective Towards the Future
of Large Language Models [40.557611946967086]
本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来の応用について調査する。
各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,および分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
論文 参考訳(メタデータ) (2023-04-04T15:01:06Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。