論文の概要: LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset
- arxiv url: http://arxiv.org/abs/2309.11998v1
- Date: Thu, 21 Sep 2023 12:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:28:31.785263
- Title: LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset
- Title(参考訳): LMSYS-Chat-1M:大規模実世界のLLM会話データセット
- Authors: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang,
Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E.
Gonzalez, Ion Stoica, Hao Zhang
- Abstract要約: LMSYS-Chat-1Mは,25の最先端の大規模言語モデルと100万の現実世界の会話を含む大規模データセットである。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
- 参考スコア(独自算出の注目度): 75.9621305227523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studying how people interact with large language models (LLMs) in real-world
scenarios is increasingly important due to their widespread use in various
applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset
containing one million real-world conversations with 25 state-of-the-art LLMs.
This dataset is collected from 210K unique IP addresses in the wild on our
Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's
content, including its curation process, basic statistics, and topic
distribution, highlighting its diversity, originality, and scale. We
demonstrate its versatility through four use cases: developing content
moderation models that perform similarly to GPT-4, building a safety benchmark,
training instruction-following models that perform similarly to Vicuna, and
creating challenging benchmark questions. We believe that this dataset will
serve as a valuable resource for understanding and advancing LLM capabilities.
The dataset is publicly available at
\url{https://huggingface.co/datasets/lmsys/lmsys-chat-1m}.
- Abstract(参考訳): 大規模言語モデル(LLM)を現実のシナリオでどのように扱うかを研究することは、様々なアプリケーションで広く使われているため、ますます重要になっている。
本稿では,25の最先端llmと100万の会話を含む大規模データセットlmsys-chat-1mを紹介する。
このデータセットは、VicunaのデモとChatbot ArenaのWebサイトで、210KのユニークなIPアドレスから収集されています。
我々は、そのキュレーションプロセス、基礎統計、トピックの分布など、データセットの内容の概要を提供し、その多様性、独創性、スケールを強調します。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成である。
私たちは、このデータセットがLLMの機能を理解し、前進するための貴重なリソースになると信じています。
データセットは \url{https://huggingface.co/datasets/lmsys/lmsys-chat-1m} で公開されている。
関連論文リスト
- Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Datasets for Large Language Models: A Comprehensive Survey [37.153302283062004]
この調査は、LLMデータセットの基本的側面を5つの観点から統合し、分類する。
この調査は、一般的な課題を浮き彫りにし、今後の調査への道のりを指摘している。
調査対象のデータサイズは、事前トレーニングのコーパスが774.5TB、他のデータセットが700万インスタンスを超えている。
論文 参考訳(メタデータ) (2024-02-28T04:35:51Z) - Grasp-Anything: Large-scale Grasp Dataset from Foundation Models [15.17542697393971]
ファンデーションモデルは、日々の生活で遭遇するオブジェクトを含む、現実世界の知識の広範なリポジトリを持っています。
このソリューションを実装するために,基礎モデルから合成した大規模グリップデータセットであるGrasp-Anythingを提案する。
本研究では,Grasp-Anythingが視覚に基づくタスクや実世界のロボット実験において,ゼロショットの把握を容易にすることを示す。
論文 参考訳(メタデータ) (2023-09-18T14:39:26Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large
Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。
リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文 参考訳(メタデータ) (2023-06-20T05:30:59Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for
Self-Supervised Learning in Earth Observation [20.94411133447731]
自己教師による事前訓練は、人間のアノテーションなしで表現力のある表現を生成する可能性を秘めている。
我々は、グローバル、マルチモーダル、マルチシーズンの衛星画像コーパスを組み立てるために、ラベルのないRSデータセットSSL4EO-S12を共有している。
論文 参考訳(メタデータ) (2022-11-13T23:38:27Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。