論文の概要: GPTZoo: A Large-scale Dataset of GPTs for the Research Community
- arxiv url: http://arxiv.org/abs/2405.15630v1
- Date: Fri, 24 May 2024 15:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:30:40.308187
- Title: GPTZoo: A Large-scale Dataset of GPTs for the Research Community
- Title(参考訳): GPTZoo:研究コミュニティのための大規模GPTデータセット
- Authors: Xinyi Hou, Yanjie Zhao, Shenao Wang, Haoyu Wang,
- Abstract要約: GPTZooは730,420のGPTインスタンスからなる大規模データセットである。
それぞれのインスタンスには、その特性を記述した21の属性と、開発中に使用される命令、ナレッジファイル、サードパーティサービスを含む豊富なメタデータが含まれている。
- 参考スコア(独自算出の注目度): 5.1875389249043415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing, with GPTs, customized versions of ChatGPT available on the GPT Store, emerging as a prominent technology for specific domains and tasks. To support academic research on GPTs, we introduce GPTZoo, a large-scale dataset comprising 730,420 GPT instances. Each instance includes rich metadata with 21 attributes describing its characteristics, as well as instructions, knowledge files, and third-party services utilized during its development. GPTZoo aims to provide researchers with a comprehensive and readily available resource to study the real-world applications, performance, and potential of GPTs. To facilitate efficient retrieval and analysis of GPTs, we also developed an automated command-line interface (CLI) that supports keyword-based searching of the dataset. To promote open research and innovation, the GPTZoo dataset will undergo continuous updates, and we are granting researchers public access to GPTZoo and its associated tools.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は自然言語処理に革命をもたらし、GPT、カスタマイズされたChatGPTがGPTストアで利用可能となり、特定のドメインやタスクの顕著な技術として登場した。
GPTの学術研究を支援するため、730,420 GPTインスタンスからなる大規模データセットであるGPTZooを紹介した。
それぞれのインスタンスには、その特性を記述した21の属性と、開発中に使用される命令、ナレッジファイル、サードパーティサービスを含む豊富なメタデータが含まれている。
GPTZooは、GPTの実際の応用、性能、可能性を研究するために、研究者に包括的で手軽に利用可能なリソースを提供することを目的としている。
GPTの効率的な検索と解析を容易にするために,キーワードベースのデータセット検索をサポートするCLI (Automated Command-line Interface) を開発した。
オープンな研究とイノベーションを促進するため、GPTZooデータセットは継続的更新が行われます。
関連論文リスト
- FAIR GPT: A virtual consultant for research data management in ChatGPT [0.0]
FAIR GPTは、研究者や組織がFAIR原則に準拠したデータやメタデータを作成するのを支援するために設計されたChatGPTの最初の仮想コンサルタントである。
メタデータの改善、データセットの編成、リポジトリの選択に関するガイダンスを提供する。
本稿では,その特徴,応用,限界について述べる。
論文 参考訳(メタデータ) (2024-09-20T12:28:48Z) - GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [73.81268591484198]
GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。
本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。
本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
論文 参考訳(メタデータ) (2024-01-14T15:34:48Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - On the Detectability of ChatGPT Content: Benchmarking, Methodology, and Evaluation through the Lens of Academic Writing [10.534162347659514]
そこで我々は,ChatGPT文中の微妙で深い意味的・言語的パターンをよりよく捉えるために,CheckGPTというディープニューラルネットワークフレームワークを開発した。
ChatGPTコンテンツの検出性を評価するため、我々はCheckGPTの転送性、迅速なエンジニアリング、ロバスト性について広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-07T12:33:24Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Geotechnical Parrot Tales (GPT): Harnessing Large Language Models in
geotechnical engineering [2.132096006921048]
GPTモデルは可聴音を生成できるが、偽の出力を生成でき、幻覚を引き起こす。
GPTをジオエンジニアリングに統合することで、プロフェッショナルは作業を合理化し、持続的で回復力のあるインフラシステムを開発することができる。
論文 参考訳(メタデータ) (2023-04-04T21:47:41Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。