論文の概要: WildChat: 1M ChatGPT Interaction Logs in the Wild
- arxiv url: http://arxiv.org/abs/2405.01470v1
- Date: Thu, 2 May 2024 17:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 15:45:41.917691
- Title: WildChat: 1M ChatGPT Interaction Logs in the Wild
- Title(参考訳): WildChat: 野生での100万のチャットGPTインタラクションログ
- Authors: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng,
- Abstract要約: WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
- 参考スコア(独自算出の注目度): 88.05964311416717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.
- Abstract(参考訳): GPT-4やChatGPTのようなチャットボットは今や数百万のユーザーにサービスを提供している。
広く使われているにもかかわらず、これらのツールが実際に多くのユーザーがどのように使われているかを示す公開データセットが不足している。
このギャップを埋めるために、私たちはチャットの書き起こしやリクエストヘッダーを匿名で収集するために、肯定的で合意的なオプトインと引き換えにChatGPTへの無料アクセスを提供しました。
そこからWildChatをコンパイルしました。これは100万のユーザ-ChatGPT会話のコーパスで、250万回以上のインタラクションターンで構成されています。
WildChatを他の一般的なユーザ-チャットボットのインタラクションデータセットと比較すると、私たちのデータセットは最も多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有毒なユースケースを多種多様に提示している。
タイムスタンプによるチャットの書き起こしに加えて、私たちは、リクエストヘッダとともに、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにしています。
この拡張により、異なる地理的領域と時間次元にわたるユーザの振る舞いをより詳細に分析することができる。
最後に、広範囲のユースケースをキャプチャするので、微調整された命令追従モデルにおいて、データセットの潜在的有用性を示す。
WildChatはAI2 ImpACT Licensesの下でhttps://wildchat.allen.aiでリリースされた。
関連論文リスト
- Bots can Snoop: Uncovering and Mitigating Privacy Risks of Bots in Group Chats [2.835537619294564]
SnoopGuardはグループメッセージングプロトコルで、強力なエンドツーエンドセキュリティを維持しながら、チャットボットに対するユーザのプライバシを保証する。
私たちのプロトタイプ実装では、メッセージレイヤセキュリティ(MLS)と統合された場合、50人のグループでメッセージを送信するのに約30ミリ秒かかります。
論文 参考訳(メタデータ) (2024-10-09T06:37:41Z) - WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild [88.05964311416717]
本研究では,高速,多目的,大規模会話分析が可能な対話型ツールWildVisを紹介する。
WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。
誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-05T17:59:15Z) - Are LLM-based methods good enough for detecting unfair terms of service? [67.49487557224415]
大規模言語モデル(LLM)は、長いテキストベースの文書を解析するのに適している。
プライバシーポリシーの集合に対して個別に適用された12の質問からなるデータセットを構築します。
いくつかのオープンソースモデルは、いくつかの商用モデルと比較して高い精度を提供できる。
論文 参考訳(メタデータ) (2024-08-24T09:26:59Z) - Can ChatGPT Reproduce Human-Generated Labels? A Study of Social
Computing Tasks [9.740764281808588]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。
姿勢検出(2x),感情分析,ヘイトスピーチ,ボット検出の5つのデータセットを抽出した。
この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文 参考訳(メタデータ) (2023-04-20T08:08:12Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。