論文の概要: Wiki-based Communities of Interest: Demographics and Outliers
- arxiv url: http://arxiv.org/abs/2303.09189v1
- Date: Thu, 16 Mar 2023 09:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:09:25.427108
- Title: Wiki-based Communities of Interest: Demographics and Outliers
- Title(参考訳): Wikiベースの関心のコミュニティ: デモグラフィックとアウトリーチ
- Authors: Hiba Arnaout, Simon Razniewski, Jeff Z. Pan
- Abstract要約: Wikiの情報源によると、このデータはホワイトハウスコロナウイルスタスクフォースのメンバーなど7.5万のコミュニティをカバーしている。
主観的およびグループ中心のデータセットをフォーマットで、またブラウジングインターフェースとしてリリースします。
- 参考スコア(独自算出の注目度): 18.953455338226103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we release data about demographic information and outliers of
communities of interest. Identified from Wiki-based sources, mainly Wikidata,
the data covers 7.5k communities, such as members of the White House
Coronavirus Task Force, and 345k subjects, e.g., Deborah Birx. We describe the
statistical inference methodology adopted to mine such data. We release
subject-centric and group-centric datasets in JSON format, as well as a
browsing interface. Finally, we forsee three areas this research can have an
impact on: in social sciences research, it provides a resource for demographic
analyses; in web-scale collaborative encyclopedias, it serves as an edit
recommender to fill knowledge gaps; and in web search, it offers lists of
salient statements about queried subjects for higher user engagement.
- Abstract(参考訳): 本稿では,人口統計情報と地域コミュニティの外れ値に関するデータを公開する。
Wikidataを中心とするウィキソースから特定され、ホワイトハウスコロナウイルスタスクフォースのメンバーやデボラ・バークスなど345kの被験者を含む7.5kのコミュニティをカバーしている。
このようなデータマイニングに採用した統計的推論手法について述べる。
サブジェクト中心でグループ中心のデータセットをjson形式でリリースし、ブラウジングインターフェースも提供しています。
最後に, 社会科学研究においては, 人口統計分析の資源を提供し, ウェブ規模の共同百科事典では, 知識ギャップを埋めるための編集レコメンデーターとして機能し, ウェブ検索では, 質問対象に関する敬意の表を, より高いユーザエンゲージメントのために提供している。
関連論文リスト
- Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Knowledge Graph Representation for Political Information Sources [16.959319157216466]
我々は、Britbart News(BN)とNew York Times(NYT)の2つのニュースポータルから収集されたデータを分析する。
本研究は,BNおよびNYTメディアポータルから収集した11.5年間のデータセットを用いて,知識グラフを用いて行った。
論文 参考訳(メタデータ) (2024-04-04T13:36:01Z) - Subdivisions and Crossroads: Identifying Hidden Community Structures in
a Data Archive's Citation Network [1.6631602844999724]
本稿では学術出版物に引用されるデータセットの権威ネットワークのコミュニティ構造を解析する。
共有データを用いた社会科学データセットと研究分野のコミュニティを同定する。
本研究は、データ再利用の隠れ構造を明らかにし、学際的な研究コミュニティがデータセットを共有科学的なインプットとして構成する方法を実証する。
論文 参考訳(メタデータ) (2022-05-17T14:18:49Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Common Misconceptions about Population Data [5.606904856295946]
本稿は、このようなデータを扱う人なら誰でも知っておく必要があると信じている集団データに関するさまざまな誤解について論じる。
このようなデータベースの巨大なサイズは、しばしば関心の人口に対する有効な推測の保証として誤解される。
人口データを用いた場合,推測のための一連の推奨事項をまとめて結論付ける。
論文 参考訳(メタデータ) (2021-12-20T23:54:49Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Analyzing Race and Country of Citizenship Bias in Wikidata [2.6081347116384728]
我々は、人種と市民権の偏見を概ね検討し、科学者、ソフトウェア開発者、エンジニアのSTEM表現について検討する。
我々は、ヨーロッパと北アメリカに白人と市民権を持つ人々の過剰表現があることを発見した。
我々はマイノリティのSTEM科学者に関するウィキデータの追加データを発見し、リンクした。
論文 参考訳(メタデータ) (2021-08-11T19:04:15Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。