論文の概要: Integrating topic modeling and word embedding to characterize violent
deaths
- arxiv url: http://arxiv.org/abs/2106.14365v1
- Date: Mon, 28 Jun 2021 01:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 00:49:13.519416
- Title: Integrating topic modeling and word embedding to characterize violent
deaths
- Title(参考訳): 暴力的死を特徴付ける話題モデリングと単語埋め込みの統合
- Authors: Alina Arseniev-Koehler, Susan D. Cochran, Vickie M. Mays, Kai-Wei
Chang, Jacob Gates Foster
- Abstract要約: コーパス内のトピックを識別し,文書をトピックシーケンスとして表現する新しい手法を提案する。
まず、埋め込み空間のスパース表現を提供するベクトル(談話原子)の集合を同定する。
対象者のジェンダーバイアスと,女性被害者と男性被害者の物語の有病率を比較した。
- 参考スコア(独自算出の注目度): 25.95389494074192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is an escalating need for methods to identify latent patterns in text
data from many domains. We introduce a new method to identify topics in a
corpus and represent documents as topic sequences. Discourse Atom Topic
Modeling draws on advances in theoretical machine learning to integrate topic
modeling and word embedding, capitalizing on the distinct capabilities of each.
We first identify a set of vectors ("discourse atoms") that provide a sparse
representation of an embedding space. Atom vectors can be interpreted as latent
topics: Through a generative model, atoms map onto distributions over words;
one can also infer the topic that generated a sequence of words. We illustrate
our method with a prominent example of underutilized text: the U.S. National
Violent Death Reporting System (NVDRS). The NVDRS summarizes violent death
incidents with structured variables and unstructured narratives. We identify
225 latent topics in the narratives (e.g., preparation for death and physical
aggression); many of these topics are not captured by existing structured
variables. Motivated by known patterns in suicide and homicide by gender, and
recent research on gender biases in semantic space, we identify the gender bias
of our topics (e.g., a topic about pain medication is feminine). We then
compare the gender bias of topics to their prevalence in narratives of female
versus male victims. Results provide a detailed quantitative picture of
reporting about lethal violence and its gendered nature. Our method offers a
flexible and broadly applicable approach to model topics in text data.
- Abstract(参考訳): 多くのドメインからテキストデータ中の潜伏パターンを識別するメソッドはエスカレートする必要性がある。
コーパス内のトピックを識別し,文書をトピックシーケンスとして表現する新しい手法を提案する。
Discourse Atom Topic Modelingは、トピックモデリングと単語の埋め込みを統合するための理論的機械学習の進歩を生かし、それぞれの異なる能力を活用している。
まず、埋め込み空間のスパース表現を提供するベクトル集合("discourse atoms")を識別する。
生成モデルを通じて、原子は単語上の分布にマップされる; 単語列を生成する話題を推測することもできる。
我々は,未利用テキストの顕著な例として,米国国立暴力死亡報告システム(NVDRS)について説明する。
nvdrsは暴力的な死亡事故を構造化変数と非構造化物語で要約している。
物語中の225の潜在トピック(死の準備や身体的な攻撃など)を識別するが、これらのトピックの多くは既存の構造化変数では捉えられていない。
自殺や殺人の既知のパターンや、セマンティック空間におけるジェンダーバイアスの最近の研究によって、私たちはトピックのジェンダーバイアス(例えば、鎮痛薬に関するトピックは女性である)を識別した。
対象者のジェンダーバイアスと,女性被害者と男性被害者の物語の傾向を比較した。
結果は、致死的な暴力とその性的な性質についての報告の詳細な定量的画像を提供する。
本手法は,テキストデータ中のトピックをモデル化するための柔軟かつ広く適用可能なアプローチを提供する。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Conflicts, Villains, Resolutions: Towards models of Narrative Media
Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。
我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。
教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文 参考訳(メタデータ) (2023-06-03T08:50:13Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。