論文の概要: WarCov -- Large multilabel and multimodal dataset from social platform
- arxiv url: http://arxiv.org/abs/2406.10255v1
- Date: Mon, 10 Jun 2024 14:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:35:51.749514
- Title: WarCov -- Large multilabel and multimodal dataset from social platform
- Title(参考訳): WarCov -- ソーシャルプラットフォームによる大規模マルチラベルおよびマルチモーダルデータセット
- Authors: Weronika Borek-Marciniec, Pawel Zyblewski, Jakub Klikowski, Pawel Ksieniewicz,
- Abstract要約: この研究は、ポーランドにおけるパンデミックとウクライナでの戦争に関する3187105の投稿を2022年に人気のあるソーシャルメディアプラットフォームで発表している。
このコレクションは、事前処理されたテキストだけでなく、画像も含まれており、マルチモーダル認識タスクにも使用できる。
ラベルは投稿のトピックを定義し、投稿に付随するハッシュタグを使用して作成された。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the classification tasks, from raw data acquisition to the curation of a dataset suitable for use in evaluating machine learning models, a series of steps - often associated with high costs - are necessary. In the case of Natural Language Processing, initial cleaning and conversion can be performed automatically, but obtaining labels still requires the rationalized input of human experts. As a result, even though many articles often state that "the world is filled with data", data scientists suffer from its shortage. It is crucial in the case of natural language applications, which is constantly evolving and must adapt to new concepts or events. For example, the topic of the COVID-19 pandemic and the vocabulary related to it would have been mostly unrecognizable before 2019. For this reason, creating new datasets, also in languages other than English, is still essential. This work presents a collection of 3~187~105 posts in Polish about the pandemic and the war in Ukraine published on popular social media platforms in 2022. The collection includes not only preprocessed texts but also images so it can be used also for multimodal recognition tasks. The labels define posts' topics and were created using hashtags accompanying the posts. The work presents the process of curating a dataset from acquisition to sample pattern recognition experiments.
- Abstract(参考訳): 分類タスクでは、生データ取得から機械学習モデル評価に適したデータセットのキュレーションに至るまで、一連のステップ(しばしば高コストに関連する)が必要である。
自然言語処理の場合、初期クリーニングと変換は自動で行うことができるが、ラベルを取得するには人間の専門家の合理的な入力が必要である。
その結果、多くの記事が「世界はデータで満たされている」と記しているが、データサイエンティストはその不足に悩まされている。
自然言語アプリケーションの場合、それは常に進化しており、新しい概念やイベントに適応する必要があります。
例えば、新型コロナウイルスのパンデミックとそれに関連する語彙の話題は、2019年以前にはほとんど認識できなかっただろう。
そのため、英語以外の言語でも、新しいデータセットを作成することが依然として不可欠である。
この研究は、ポーランドにおけるパンデミックとウクライナでの戦争に関する3~187~105の投稿を2022年にポピュラーなソーシャルメディアプラットフォームで発表している。
このコレクションは、事前処理されたテキストだけでなく、画像も含まれており、マルチモーダル認識タスクにも使用できる。
ラベルは投稿のトピックを定義し、投稿に付随するハッシュタグを使用して作成された。
この研究は、取得からサンプルパターン認識実験までデータセットをキュレートする過程を示す。
関連論文リスト
- A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - SynthBio: A Case Study in Human-AI Collaborative Curation of Text
Datasets [26.75449546181059]
効率的なデータセットキュレーションのための新しい手法を提案する。
私たちは大きな言語モデルを使って、人間のレイパーにシード世代を提供しています。
われわれの架空の伝記のデータセットはWikiBioより騒がしい。
論文 参考訳(メタデータ) (2021-11-11T21:21:48Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。