論文の概要: Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale
- arxiv url: http://arxiv.org/abs/2306.05036v4
- Date: Thu, 4 Jul 2024 11:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 01:21:29.064593
- Title: Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale
- Title(参考訳): HCIの課題のマッピング:規模のマイニングインサイトへのChatGPTとGPT-4の適用と評価
- Authors: Jonas Oppenlaender, Joonas Hämäläinen,
- Abstract要約: テキストコーパスから洞察を抽出する実世界の課題に対して,ChatGPTとGPT-4の組み合わせを評価した。
2023CHI会議の議題100件以上で4,392件の研究課題を抽出した。
また,ChatGPTとGPT-4の組み合わせは,テキストコーパスを大規模に解析するためのコスト効率に優れた手段である,という結論を得た。
- 参考スコア(独自算出の注目度): 4.6542291555324296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT and GPT-4, are gaining wide-spread real world use. Yet, these LLMs are closed source, and little is known about their performance in real-world use cases. In this paper, we apply and evaluate the combination of ChatGPT and GPT-4 for the real-world task of mining insights from a text corpus in order to identify research challenges in the field of HCI. We extract 4,392 research challenges in over 100 topics from the 2023~CHI conference proceedings and visualize the research challenges for interactive exploration. We critically evaluate the LLMs on this practical task and conclude that the combination of ChatGPT and GPT-4 makes an excellent cost-efficient means for analyzing a text corpus at scale. Cost-efficiency is key for flexibly prototyping research ideas and analyzing text corpora from different perspectives, with implications for applying LLMs for mining insights in academia and practice.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、広く普及している。
しかし、これらのLCMはクローズドソースであり、実世界のユースケースにおけるそれらの性能についてはほとんど知られていない。
本稿では,HCI分野の研究課題を特定するために,テキストコーパスからインサイトをマイニングする実世界の課題に対して,ChatGPTとGPT-4の組み合わせを適用し,評価する。
我々は2023〜CHIカンファレンスの100以上のトピックから4,392件の研究課題を抽出し、インタラクティブな探索のための研究課題を可視化する。
本稿では,本実践課題におけるLCMを批判的に評価し,ChatGPTとGPT-4の組み合わせは,テキストコーパスを大規模に解析する上で,優れたコスト効率の手段となると結論づける。
費用効率は研究のアイデアを柔軟にプロトタイピングし、異なる視点からテキストコーパスを分析する上で鍵となる。
関連論文リスト
- InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Is ChatGPT a Good Multi-Party Conversation Solver? [42.939861319863795]
大規模言語モデル (LLM) は自然言語処理の領域において影響力のある道具として出現している。
本稿では,多人数会話におけるLLM生成の可能性について検討する。
実験により,ChatGPTとGPT-4のゼロショット学習能力を評価する。
論文 参考訳(メタデータ) (2023-10-25T02:18:40Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Summary of ChatGPT-Related Research and Perspective Towards the Future
of Large Language Models [40.557611946967086]
本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来の応用について調査する。
各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,および分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
論文 参考訳(メタデータ) (2023-04-04T15:01:06Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。