論文の概要: The Impact of Data Persistence Bias on Social Media Studies
- arxiv url: http://arxiv.org/abs/2303.00902v1
- Date: Thu, 2 Mar 2023 01:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:28:12.596861
- Title: The Impact of Data Persistence Bias on Social Media Studies
- Title(参考訳): データ永続化バイアスがソーシャルメディア研究に及ぼす影響
- Authors: Tu\u{g}rulcan Elmas
- Abstract要約: データ永続化とそれが導入するバイアスを、議論を呼んでいるトピック、トレンドトピック、問題のフレーミングという3つのタイプのデータセットで分析します。
議論の的になっているデータセットは、データ永続化に悩まされがちであり、再コンパイル時に政治的左派に傾いていることがわかりました。
全体として、適切なユーザによって宣伝されたトピックは、データ永続性に悩まされる傾向にあることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media studies often collect data retrospectively to analyze public
opinion. Social media data may decay over time and such decay may prevent the
collection of the complete dataset. As a result, the collected dataset may
differ from the complete dataset and the study may suffer from data persistence
bias. Past research suggests that the datasets collected retrospectively are
largely representative of the original dataset in terms of textual content.
However, no study analyzed the impact of data persistence bias on social media
studies such as those focusing on controversial topics. In this study, we
analyze the data persistence and the bias it introduces on the datasets of
three types: controversial topics, trending topics, and framing of issues. We
report which topics are more likely to suffer from data persistence among these
datasets. We quantify the data persistence bias using the change in political
orientation, the presence of potentially harmful content and topics as
measures. We found that controversial datasets are more likely to suffer from
data persistence and they lean towards the political left upon recollection.
The turnout of the data that contain potentially harmful content is
significantly lower on non-controversial datasets. Overall, we found that the
topics promoted by right-aligned users are more likely to suffer from data
persistence. Account suspensions are the primary factor contributing to data
removals, if not the only one. Our results emphasize the importance of
accounting for the data persistence bias by collecting the data in real time
when the dataset employed is vulnerable to data persistence bias.
- Abstract(参考訳): ソーシャルメディア研究は、しばしば世論を分析するために振り返ってデータを収集する。
ソーシャルメディアデータは時間とともに崩壊し、そのような崩壊は完全なデータセットの収集を妨げる可能性がある。
その結果、収集されたデータセットは完全なデータセットと異なり、研究はデータの永続性バイアスに悩まされる可能性がある。
過去の研究によると、ふりかえりに収集されたデータセットは、テキストの内容の観点から、オリジナルのデータセットのほとんどを表している。
しかし、議論の的となっているトピックに焦点をあてたようなソーシャルメディア研究におけるデータ永続化バイアスの影響を分析した研究はない。
本研究では,議論の的となっているトピック,トレンドトピック,問題のフレーミングという3つのタイプのデータセットに,データ永続化とバイアスを分析した。
我々は、これらのデータセット間でデータパーシステンスに苦しむであろうトピックについて報告する。
政治的指向の変化、潜在的に有害なコンテンツやトピックの存在を指標として、データの永続化バイアスを定量化する。
議論を呼んでいるデータセットはデータの永続化に苦しむ傾向が強く、再記憶の政治的左派に傾いていることが分かりました。
潜在的に有害なコンテンツを含むデータのターンアウトは、非論争的データセットにおいて著しく低い。
全体として、右列のユーザが推奨するトピックは、データ永続化に苦しむことが多いことが分かりました。
アカウントサスペンションは、データ削除に寄与する主要な要因である。
この結果から,データセットがデータ永続化バイアスに弱い場合に,データをリアルタイムに収集することで,データ永続化バイアスの計算の重要性を強調した。
関連論文リスト
- DataFreeShield: Defending Adversarial Attacks without Training Data [32.29186953320468]
実データにアクセスせずにロバスト性を達成しようとする,データフリーの対向ロバスト性の問題について検討する。
本稿では,データセット生成と逆トレーニングという2つの観点からこの問題に対処するDataFreeShieldを提案する。
本稿では,DataFreeShieldがベースラインよりも優れていることを示すとともに,提案手法が対向ロバスト性問題に対する最初の完全データフリーソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-21T20:24:03Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Contributing to Accessibility Datasets: Reflections on Sharing Study
Data by Blind People [14.625384963263327]
13人の盲目の被験者がデータ収集活動に従事している2つの研究結果を示す。
リスク・ベネフィットのトレードオフを評価する際に、異なる要因が被験者の学習データ共有意欲にどのような影響を及ぼすかを確認する。
大多数は、技術改善のためにデータの共有をサポートしますが、商用利用、関連するメタデータ、およびデータの影響に関する透明性の欠如に対する懸念を表明しています。
論文 参考訳(メタデータ) (2023-03-09T00:42:18Z) - Continual Causal Effect Estimation: Challenges and Opportunities [11.343298687766579]
観測データにおける原因と効果のさらなる理解は多くの領域で重要である。
既存の手法は主にソース固有および静止観測データに焦点を当てている。
ビッグデータの時代,我々は観測データによる因果推論において新たな課題に直面している。
論文 参考訳(メタデータ) (2023-01-03T09:57:50Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Biases in human mobility data impact epidemic modeling [0.0]
携帯電話の不正アクセスと不平等使用による2種類のバイアスを同定する。
我々は、高重量個体が過剰に表現されているすべての調査データセットにおいて、データ生成バイアスの証拠を見つける。
このスキューを緩和するために、データをデバイアスするフレームワークを提案し、代表性を高めるためにいかに簡単なテクニックが使えるかを示す。
論文 参考訳(メタデータ) (2021-12-23T13:20:54Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Leveraging Administrative Data for Bias Audits: Assessing Disparate
Coverage with Mobility Data for COVID-19 Policy [61.60099467888073]
管理データのリンクによって,バイアスに対するモビリティデータの監査が可能かを示す。
我々は、高齢者や非白人の有権者が移動データによって捕えられる可能性が低いことを示した。
このような移動データに基づく公衆衛生資源の配分は、高リスク高齢者や少数民族に不当に害を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-11-14T02:04:14Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - A Philosophy of Data [91.3755431537592]
我々は、統計計算に必要な基本特性から統計データの定義まで研究する。
我々は、有用なデータの必要性は、プロパティを根本的にユニークか等しく理解することを規則化する必要があると論じている。
データとデータ技術への依存度が高まるにつれて、この2つの特徴は現実の集合概念に影響を与えます。
論文 参考訳(メタデータ) (2020-04-15T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。