論文の概要: Diverse Perspectives, Divergent Models: Cross-Cultural Evaluation of Depression Detection on Twitter
- arxiv url: http://arxiv.org/abs/2406.15362v2
- Date: Tue, 15 Oct 2024 13:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:32.472810
- Title: Diverse Perspectives, Divergent Models: Cross-Cultural Evaluation of Depression Detection on Twitter
- Title(参考訳): ディバージェントモデルとディバージェントモデル:Twitterにおける抑うつ検出のクロスカルチャー評価
- Authors: Nuredin Ali, Charles Chuankai Zhang, Ned Mayo, Stevie Chancellor,
- Abstract要約: 我々は、異文化のTwitterデータに基づくAIモデルを構築するためのベンチマークデータセットの一般化を評価する。
以上の結果から,抑うつ検出モデルが世界規模で一般化しないことが示唆された。
事前訓練された言語モデルは、ロジスティック回帰と比較して最高の一般化を達成するが、落ち込んだユーザーと非西洋人ユーザーには依然として大きな差がある。
- 参考スコア(独自算出の注目度): 4.462334751640166
- License:
- Abstract: Social media data has been used for detecting users with mental disorders, such as depression. Despite the global significance of cross-cultural representation and its potential impact on model performance, publicly available datasets often lack crucial metadata related to this aspect. In this work, we evaluate the generalization of benchmark datasets to build AI models on cross-cultural Twitter data. We gather a custom geo-located Twitter dataset of depressed users from seven countries as a test dataset. Our results show that depression detection models do not generalize globally. The models perform worse on Global South users compared to Global North. Pre-trained language models achieve the best generalization compared to Logistic Regression, though still show significant gaps in performance on depressed and non-Western users. We quantify our findings and provide several actionable suggestions to mitigate this issue.
- Abstract(参考訳): ソーシャルメディアデータは、うつ病などの精神疾患の患者を検出するために使われてきた。
異文化間の表現のグローバルな重要性とモデルパフォーマンスに対する潜在的な影響にもかかわらず、公開データセットには、この側面に関連する重要なメタデータが欠如していることが多い。
本研究では、異文化間Twitterデータに基づくAIモデルを構築するためのベンチマークデータセットの一般化を評価する。
テストデータセットとして、7カ国の落ち込んだユーザのジオロケーションされたカスタムTwitterデータセットを収集します。
以上の結果から,抑うつ検出モデルが世界規模で一般化しないことが示唆された。
このモデルは、Global Northと比べてGlobal Southのユーザにとっては悪いパフォーマンスだ。
事前訓練された言語モデルは、ロジスティック回帰と比較して最高の一般化を達成するが、落ち込んだユーザーと非西洋人ユーザーには依然として大きな差がある。
我々はこの知見を定量化し、この問題を軽減するためにいくつかの実用的な提案を行う。
関連論文リスト
- Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization? [9.906591021385303]
ImageNet-A、-C、-Rのようなイメージネットベースの一般化ベンチマークでは、10年以上オブジェクト認識の進歩が測定されている。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
本研究では,世界各国の家庭から得られた2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理横断の一般化について検討する。
論文 参考訳(メタデータ) (2023-07-24T21:29:48Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - On Hate Scaling Laws For Data-Swamps [14.891493485229251]
HCR(Hate Content Rate)測定値で測定すると,データセットにおけるヘイトフルコンテンツの存在が約12%増加した。
スケールが大きくなるにつれて、他の7つの攻撃的クラスに比べて、人間の顔の画像と人間のクラスを関連付ける傾向が半減した。
黒人女性のカテゴリーでは、モデルを犯罪者のクラスに関連付ける傾向は2倍になり、黒人男性の顔のクインタップリングは4倍になった。
論文 参考訳(メタデータ) (2023-06-22T18:00:17Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Generalization and Personalization of Mobile Sensing-Based Mood
Inference Models: An Analysis of College Students in Eight Countries [8.218081835111912]
8か国678人の参加者から329万件の自己申告を行ったモバイルセンシングデータセットを収集した。
国別(大陸内での訓練・試験)、大陸別(大陸内での訓練・試験)、国別(訓練データでは見られない国で試験)、多国間(複数の国で訓練・試験)のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-06T02:26:52Z) - Taxonomizing local versus global structure in neural network loss
landscapes [60.206524503782006]
ロスランドスケープが世界規模で良好に接続されている場合, 最適なテスト精度が得られることを示す。
また、モデルが小さい場合や、品質の低いデータに訓練された場合、世界規模で接続の不十分なランドスケープが生じる可能性があることも示しています。
論文 参考訳(メタデータ) (2021-07-23T13:37:14Z) - A Globally Normalized Neural Model for Semantic Parsing [30.209064474475944]
文脈自由文法(CFG)に基づく意味解析のためのグローバル正規化モデルを提案する。
本モデルでは各ステップで実値スコアを予測し,ラベルバイアス問題に悩まされない。
論文 参考訳(メタデータ) (2021-06-07T07:06:36Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。