論文の概要: Wiki-based Communities of Interest: Demographics and Outliers
- arxiv url: http://arxiv.org/abs/2303.09189v1
- Date: Thu, 16 Mar 2023 09:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:09:25.427108
- Title: Wiki-based Communities of Interest: Demographics and Outliers
- Title(参考訳): Wikiベースの関心のコミュニティ: デモグラフィックとアウトリーチ
- Authors: Hiba Arnaout, Simon Razniewski, Jeff Z. Pan
- Abstract要約: Wikiの情報源によると、このデータはホワイトハウスコロナウイルスタスクフォースのメンバーなど7.5万のコミュニティをカバーしている。
主観的およびグループ中心のデータセットをフォーマットで、またブラウジングインターフェースとしてリリースします。
- 参考スコア(独自算出の注目度): 18.953455338226103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we release data about demographic information and outliers of
communities of interest. Identified from Wiki-based sources, mainly Wikidata,
the data covers 7.5k communities, such as members of the White House
Coronavirus Task Force, and 345k subjects, e.g., Deborah Birx. We describe the
statistical inference methodology adopted to mine such data. We release
subject-centric and group-centric datasets in JSON format, as well as a
browsing interface. Finally, we forsee three areas this research can have an
impact on: in social sciences research, it provides a resource for demographic
analyses; in web-scale collaborative encyclopedias, it serves as an edit
recommender to fill knowledge gaps; and in web search, it offers lists of
salient statements about queried subjects for higher user engagement.
- Abstract(参考訳): 本稿では,人口統計情報と地域コミュニティの外れ値に関するデータを公開する。
Wikidataを中心とするウィキソースから特定され、ホワイトハウスコロナウイルスタスクフォースのメンバーやデボラ・バークスなど345kの被験者を含む7.5kのコミュニティをカバーしている。
このようなデータマイニングに採用した統計的推論手法について述べる。
サブジェクト中心でグループ中心のデータセットをjson形式でリリースし、ブラウジングインターフェースも提供しています。
最後に, 社会科学研究においては, 人口統計分析の資源を提供し, ウェブ規模の共同百科事典では, 知識ギャップを埋めるための編集レコメンデーターとして機能し, ウェブ検索では, 質問対象に関する敬意の表を, より高いユーザエンゲージメントのために提供している。
関連論文リスト
- Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method [76.08417511187909]
トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究分野からのものである。
本研究では,LDA(Latent Dirichlet Allocation)法を用いて,コロナウイルスに関するスウェーデンの新聞記事の話題変化をモデル化する。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間のトピック変更に関する6515の論文,適用方法,統計データを含むコーパスについて述べる。
論文 参考訳(メタデータ) (2023-01-08T12:33:58Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Subdivisions and Crossroads: Identifying Hidden Community Structures in
a Data Archive's Citation Network [1.6631602844999724]
本稿では学術出版物に引用されるデータセットの権威ネットワークのコミュニティ構造を解析する。
共有データを用いた社会科学データセットと研究分野のコミュニティを同定する。
本研究は、データ再利用の隠れ構造を明らかにし、学際的な研究コミュニティがデータセットを共有科学的なインプットとして構成する方法を実証する。
論文 参考訳(メタデータ) (2022-05-17T14:18:49Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Common Misconceptions about Population Data [5.606904856295946]
本稿は、このようなデータを扱う人なら誰でも知っておく必要があると信じている集団データに関するさまざまな誤解について論じる。
このようなデータベースの巨大なサイズは、しばしば関心の人口に対する有効な推測の保証として誤解される。
人口データを用いた場合,推測のための一連の推奨事項をまとめて結論付ける。
論文 参考訳(メタデータ) (2021-12-20T23:54:49Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Analyzing Race and Country of Citizenship Bias in Wikidata [2.6081347116384728]
我々は、人種と市民権の偏見を概ね検討し、科学者、ソフトウェア開発者、エンジニアのSTEM表現について検討する。
我々は、ヨーロッパと北アメリカに白人と市民権を持つ人々の過剰表現があることを発見した。
我々はマイノリティのSTEM科学者に関するウィキデータの追加データを発見し、リンクした。
論文 参考訳(メタデータ) (2021-08-11T19:04:15Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - I-AID: Identifying Actionable Information from Disaster-related Tweets [0.0]
ソーシャルメディアは、被災者、寄付、支援要請に関する貴重なデータを提供することによって、災害管理において重要な役割を担っている。
ツイートを自動的にマルチラベル情報タイプに分類するマルチモデルアプローチであるI-AIDを提案する。
以上の結果から,I-AIDはTREC-ISデータセットおよびCOVID-19 Tweetsにおいて,平均F1得点の6%,+4%において最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-08-04T19:07:50Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。