論文の概要: Media Cloud: Massive Open Source Collection of Global News on the Open
Web
- arxiv url: http://arxiv.org/abs/2104.03702v3
- Date: Sat, 1 May 2021 23:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 12:02:48.907495
- Title: Media Cloud: Massive Open Source Collection of Global News on the Open
Web
- Title(参考訳): Media Cloud: オープンWeb上のグローバルニュースの大規模なオープンソースコレクション
- Authors: Hal Roberts, Rahul Bhargava, Linas Valiukas, Dennis Jen, Momin M.
Malik, Cindy Bishop, Emily Ndulue, Aashka Dave, Justin Clark, Bruce Etling,
Rob Faris, Anushka Shah, Jasmin Rubinovitz, Alexis Hope, Catherine D'Ignazio,
Fernando Bermejo, Yochai Benkler, Ethan Zuckerman
- Abstract要約: Media Cloudは、クロールハイパーリンク構造をベースとしたオープンソースプラットフォームで、10年以上にわたって運用されてきた。
Media Cloudが収集して保存するデータ、それらのデータの処理と整理方法、オープンなAPIアクセス、そしてユーザ向けツールの背後にある重要な選択肢を文書化しています。
我々は、Media Cloudを使って生成された2つのサンプルデータセットの概要を説明し、研究者がこのプラットフォームを使って独自のデータセットを作成する方法について論じる。
- 参考スコア(独自算出の注目度): 40.52153096219742
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the first full description of Media Cloud, an open source platform
based on crawling hyperlink structure in operation for over 10 years, that for
many uses will be the best way to collect data for studying the media ecosystem
on the open web. We document the key choices behind what data Media Cloud
collects and stores, how it processes and organizes these data, and its open
API access as well as user-facing tools. We also highlight the strengths and
limitations of the Media Cloud collection strategy compared to relevant
alternatives. We give an overview two sample datasets generated using Media
Cloud and discuss how researchers can use the platform to create their own
datasets.
- Abstract(参考訳): Media Cloudは、オープンWeb上でメディアエコシステムを研究するためのデータ収集のベストな方法として、多くのユースケースにおいて、10年以上にわたって運用されているハイパーリンク構造をベースとしたオープンソースプラットフォームです。
当社はdata media cloudが収集し保存するもの、データの処理と整理方法、オープンapiアクセス、ユーザ向けツールの背後にある重要な選択を文書化しています。
また,メディアクラウド収集戦略の強みと限界についても,関連する代替案と比較して強調する。
Media Cloudを使って生成された2つのサンプルデータセットの概要を説明し、研究者がこのプラットフォームを使って独自のデータセットを作成する方法について論じる。
関連論文リスト
- PVContext: Hybrid Context Model for Point Cloud Compression [61.24130634750288]
我々は,効率的なオクツリーベースのポイントクラウド圧縮のためのハイブリッドコンテキストモデルPVContextを提案する。
PVContextは、ボクセルを用いて局所幾何学情報を正確に表現するVoxel Contextと、ポイントクラウドからグローバルな形状情報を効率的に保存するPoint Contextの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-19T12:47:35Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - BigBird: Big Data Storage and Analytics at Scale in Hybrid Cloud [0.0]
本稿では,Google Cloud PlatformのBigQueryを用いて,スケーラブルなビッグデータストレージと分析管理フレームワークを設計するためのアプローチを紹介する。
この記事では、Google Cloud Platformのフレームワーク実装について論じるが、主要なクラウドプロバイダすべてに簡単に適用できる。
論文 参考訳(メタデータ) (2022-03-22T05:42:46Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - AMUSED: An Annotation Framework of Multi-modal Social Media Data [0.0]
このフレームワークは、ソーシャルメディアデータの収集と注釈付けの問題を緩和するために設計されている。
AMUSEDは複数のアプリケーションドメインに適用可能で、ユースケースとして、新型コロナウイルスの誤情報収集のためのフレームワークを実装した。
論文 参考訳(メタデータ) (2020-10-01T15:50:41Z) - ContentWise Impressions: An Industrial Dataset with Impressions Included [68.5068326729525]
ContentWise Impressionsデータセットは、Over-The-Topメディアサービスによる映画とテレビシリーズの暗黙の相互作用と印象の集合である。
本稿では,データ収集プロセス,前処理の適用状況,特徴,統計を,他の一般的なデータセットと比較した場合に述べる。
データをロードして分割するソフトウェアツールと、ユーザインタラクションとインプレッションの両方を、いくつかの一般的なレコメンデーションアルゴリズムで使用する方法の例をリリースする。
論文 参考訳(メタデータ) (2020-08-03T21:46:38Z) - Reliable and Efficient Long-Term Social Media Monitoring [4.389610557232119]
このテクニカルレポートは、クラウドベースのデータ収集、前処理、およびアーカイブインフラストラクチャを提示する。
このアプローチがさまざまなクラウドコンピューティングアーキテクチャでどのように機能するか、他のソーシャルメディアプラットフォームからストリーミングデータを収集する方法にどのように適応するかを示す。
論文 参考訳(メタデータ) (2020-05-05T19:04:56Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。