論文の概要: ShareChat: A Dataset of Chatbot Conversations in the Wild
- arxiv url: http://arxiv.org/abs/2512.17843v1
- Date: Fri, 19 Dec 2025 17:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.516919
- Title: ShareChat: A Dataset of Chatbot Conversations in the Wild
- Title(参考訳): ShareChat: 野生でのチャットボット会話のデータセット
- Authors: Yueru Yan, Tuc Nguyen, Bo Su, Melissa Lieffers, Thai Le,
- Abstract要約: ShareChatは大規模でクロスプラットフォームなコーパスで、142,808の会話と、主要な5つのプラットフォームで公開されているURLから60万回以上を集めています。
ShareChatは、以前のデータセットよりもはるかに長いコンテキストウィンドウと対話深度を提供します。
- 参考スコア(独自算出の注目度): 11.008120181455316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have evolved into distinct platforms with unique interface designs and capabilities, existing public datasets treat models as generic text generators, stripping away the interface context that actively shapes user interaction. To address this limitation, we present ShareChat, a large-scale, cross-platform corpus comprising 142,808 conversations and over 660,000 turns collected from publicly shared URLs across five major platforms: ChatGPT, Claude, Gemini, Perplexity, and Grok. ShareChat distinguishes itself by preserving native platform affordances often lost in standard logs, including reasoning traces, source links, and code artifacts, while spanning 101 languages over the period from April 2023 to October 2025. Furthermore, ShareChat offers substantially longer context windows and greater interaction depth than prior datasets. We demonstrate the dataset's multifaceted utility through three representative analyses: (1) analyzing conversation completeness to measure user intent satisfaction; (2) evaluating source citation behaviors in content generation; and (3) conducting temporal analysis to track evolving usage patterns. This work provides the community with a vital and timely resource for understanding authentic user-LLM chatbot interactions in the wild.
- Abstract(参考訳): LLM(Large Language Models)は、ユニークなインターフェース設計と機能を備えたプラットフォームへと進化してきたが、既存の公開データセットでは、モデルをジェネリックテキストジェネレータとして扱い、ユーザインタラクションを積極的に形作るインターフェースコンテキストを削除している。
この制限に対処するため、ChatGPT、Claude、Gemini、Perplexity、Grokという5つの主要なプラットフォームにわたる公開共有URLから収集された142,808の会話と660,000のターンからなる大規模なクロスプラットフォームコーパスであるShareChatを紹介します。
ShareChatは、2023年4月から2025年10月までの期間に101言語にまたがる一方で、推論トレース、ソースリンク、コードアーティファクトなど、標準ログでしばしば失われるネイティブプラットフォームの価格を保存することで、自分自身を区別している。
さらに、ShareChatは、以前のデータセットよりもはるかに長いコンテキストウィンドウと対話深度を提供します。
本稿では,(1)ユーザ意図の満足度を測定するための会話完全性の分析,(2)コンテンツ生成におけるソース引用行動の評価,(3)時間的分析による利用パターンの追跡という3つの代表的な分析を通して,データセットの多面的有用性を実証する。
この作業は、コミュニティに、ユーザとLLMのチャットボットの相互作用を理解するための、重要かつタイムリーなリソースを提供します。
関連論文リスト
- One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - From Chat Logs to Collective Insights: Aggregative Question Answering [16.25106951968537]
Aggregative Question Answeringは、何千ものユーザとチャットボットのインタラクションを明示的に推論し、集約的なクエリに答えることを必要とする新しいタスクである。
この方向の研究を可能にするために,実世界の会話182,330から派生した6,027の集約質問からなるWildChat-AQAというベンチマークを構築した。
論文 参考訳(メタデータ) (2025-05-29T17:59:55Z) - WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - LiveChat: A Large-Scale Personalized Dialogue Dataset Automatically
Constructed from Live Streaming [11.88939304751663]
提案するLiveChatデータセットは,351のペルソナの平均セッション数が約3800,各ペルソナの詳細なプロファイルが約1億3300万の中国語対話で構成されている。
本稿では、応答モデリングとアドレナ認識の2つの重要なタスクを目標とし、高度な技術に基づく検索ベースラインを提案する。
論文 参考訳(メタデータ) (2023-06-14T09:50:06Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。