論文の概要: WMDecompose: A Framework for Leveraging the Interpretable Properties of
Word Mover's Distance in Sociocultural Analysis
- arxiv url: http://arxiv.org/abs/2110.07330v1
- Date: Thu, 14 Oct 2021 13:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:56:20.759241
- Title: WMDecompose: A Framework for Leveraging the Interpretable Properties of
Word Mover's Distance in Sociocultural Analysis
- Title(参考訳): WMDecompose:社会文化分析における単語モーバー距離の解釈特性の活用のためのフレームワーク
- Authors: Mikael Brunila and Jack LaViolette
- Abstract要約: 妥当性と解釈可能性のバランスをとる一般的なモデルは、Word Mover's Distance (WMD)である。
WMDecomposeは、文書レベル距離を構成語レベル距離に分解し、その後、単語をクラスタ化してテーマ要素を誘導するモデルおよびPythonライブラリである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the increasing popularity of NLP in the humanities and social
sciences, advances in model performance and complexity have been accompanied by
concerns about interpretability and explanatory power for sociocultural
analysis. One popular model that balances complexity and legibility is Word
Mover's Distance (WMD). Ostensibly adapted for its interpretability, WMD has
nonetheless been used and further developed in ways which frequently discard
its most interpretable aspect: namely, the word-level distances required for
translating a set of words into another set of words. To address this apparent
gap, we introduce WMDecompose: a model and Python library that 1) decomposes
document-level distances into their constituent word-level distances, and 2)
subsequently clusters words to induce thematic elements, such that useful
lexical information is retained and summarized for analysis. To illustrate its
potential in a social scientific context, we apply it to a longitudinal social
media corpus to explore the interrelationship between conspiracy theories and
conservative American discourses. Finally, because of the full WMD model's high
time-complexity, we additionally suggest a method of sampling document pairs
from large datasets in a reproducible way, with tight bounds that prevent
extrapolation of unreliable results due to poor sampling practices.
- Abstract(参考訳): 人文科学や社会科学におけるNLPの普及にもかかわらず、モデル性能と複雑性の進歩は、社会文化的分析の解釈可能性と説明力に関する懸念を伴う。
複雑性と妥当性のバランスをとる一般的なモデルはWord Mover's Distance (WMD)である。
表向きは解釈可能性に適合するが、wmdは最も解釈可能な側面、すなわち単語集合を別の単語集合に変換するのに必要な単語レベルの距離をしばしば捨てる方法で使われ、さらに発展してきた。
この明らかなギャップに対処するために、WMDecompose:モデルとPythonライブラリを紹介します。
1)文書レベル距離を構成語レベル距離に分解し、
2) 意味的要素を推論するために単語をクラスタリングし, 有用な語彙情報を保持し, 分析のために要約する。
社会科学的文脈におけるその可能性を説明するために、縦断的なソーシャルメディアコーパスに適用し、陰謀論と保守的なアメリカの言論の相互関係を探る。
最後に,WMDモデルの時間複雑度が高いため,大規模なデータセットから文書ペアを再現可能な方法でサンプリングする方法も提案する。
関連論文リスト
- Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs [0.41436032949434404]
我々は,大規模なテキストデータセット内の問題フレーミングと物語分析のための新しい検出手法を開発し,厳密に評価する。
問題フレーミングは大きなコーパスにおいて, 与えられた問題に対して, いずれの視点でも, 確実に, 効率的に検出できることを示す。
論文 参考訳(メタデータ) (2024-08-19T07:14:15Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Transition-based Abstract Meaning Representation Parsing with Contextual
Embeddings [0.0]
本研究では,意味解析のタスクにおいて,言語モデルと記号意味論の定式化という,言語の意味への最も成功したルートを2つ組み合わせる手法について検討する。
本稿では,事前学習した文脈認識単語の埋め込み(BERTやRoBERTaなど)を解析問題に組み込むことの有用性について検討する。
論文 参考訳(メタデータ) (2022-06-13T15:05:24Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Semi-Supervised Joint Estimation of Word and Document Readability [6.34044741105807]
グラフ畳み込みネットワーク(GCN)による単語と文書の難易度を共同で推定することを提案する。
実験結果から, GCN法は強いベースラインよりも高い精度を達成でき, 少ないラベルデータでも堅牢なままであることがわかった。
論文 参考訳(メタデータ) (2021-04-27T10:56:47Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。