論文の概要: A Dataset and Benchmarks for Multimedia Social Analysis
- arxiv url: http://arxiv.org/abs/2006.08335v1
- Date: Fri, 5 Jun 2020 11:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:08:41.303137
- Title: A Dataset and Benchmarks for Multimedia Social Analysis
- Title(参考訳): マルチメディア社会分析のためのデータセットとベンチマーク
- Authors: Bofan Xue, David Chan, John Canny
- Abstract要約: マルチモダリティ学習の推進を目的とした,新しい公開データセットを提案する。
677万件の投稿、290万件の投稿画像、488万件の投稿ビデオ、14万件のコメント画像、460万件のコメントビデオ、9690万件のコメントが共同で利用可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new publicly available dataset with the goal of advancing
multi-modality learning by offering vision and language data within the same
context. This is achieved by obtaining data from a social media website with
posts containing multiple paired images/videos and text, along with comment
trees containing images/videos and/or text. With a total of 677k posts, 2.9
million post images, 488k post videos, 1.4 million comment images, 4.6 million
comment videos, and 96.9 million comments, data from different modalities can
be jointly used to improve performances for a variety of tasks such as image
captioning, image classification, next frame prediction, sentiment analysis,
and language modeling. We present a wide range of statistics for our dataset.
Finally, we provide baseline performance analysis for one of the regression
tasks using pre-trained models and several fully connected networks.
- Abstract(参考訳): 本稿では,マルチモダリティ学習を目的とし,同じ文脈内で視覚情報と言語データを提供することにより,新しいデータセットを提案する。
これは、複数のペア画像/ビデオとテキストを含む投稿と、画像/ビデオと/またはテキストを含むコメントツリーを含むソーシャルメディアウェブサイトからデータを取得することで達成される。
投稿総数は677万件、ポスト画像2.9万件、ポストビデオ488万件、コメント画像14万件、コメントビデオ460万件、コメントビデオ969万件で、画像キャプション、画像分類、次のフレーム予測、感情分析、言語モデリングなど、さまざまなタスクのパフォーマンス向上にさまざまなモダリティからのデータを併用することができる。
データセットについて、幅広い統計データを提示する。
最後に、事前学習されたモデルと複数の完全連結ネットワークを用いた回帰タスクのベースライン性能解析を行う。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。