論文の概要: CommunityFish: A Poisson-based Document Scaling With Hierarchical
Clustering
- arxiv url: http://arxiv.org/abs/2308.14873v1
- Date: Mon, 28 Aug 2023 19:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:46:58.361721
- Title: CommunityFish: A Poisson-based Document Scaling With Hierarchical
Clustering
- Title(参考訳): CommunityFish:階層的クラスタリングによるPoissonベースのドキュメントスケーリング
- Authors: Sami Diaf
- Abstract要約: 本稿では,単語空間上の階層的クラスタリング,すなわちルービンアルゴリズムに基づくWordfishの拡張版としてCommunityFishを紹介し,コーパスから出現する意味的および独立したn-gramとしてコミュニティを生成する。
この戦略は、コミュニティが重複しない構造であるため、Poissonスケーリングモデルの実行の高速化に加えて、当事者や講演者を識別する上で重要な情報的力を持つため、結果の解釈可能性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document scaling has been a key component in text-as-data applications for
social scientists and a major field of interest for political researchers, who
aim at uncovering differences between speakers or parties with the help of
different probabilistic and non-probabilistic approaches. Yet, most of these
techniques are either built upon the agnostically bag-of-word hypothesis or use
prior information borrowed from external sources that might embed the results
with a significant bias. If the corpus has long been considered as a collection
of documents, it can also be seen as a dense network of connected words whose
structure could be clustered to differentiate independent groups of words,
based on their co-occurrences in documents, known as communities. This paper
introduces CommunityFish as an augmented version of Wordfish based on a
hierarchical clustering, namely the Louvain algorithm, on the word space to
yield communities as semantic and independent n-grams emerging from the corpus
and use them as an input to Wordfish method, instead of considering the word
space. This strategy emphasizes the interpretability of the results, since
communities have a non-overlapping structure, hence a crucial informative power
in discriminating parties or speakers, in addition to allowing a faster
execution of the Poisson scaling model. Aside from yielding communities,
assumed to be subtopic proxies, the application of this technique outperforms
the classic Wordfish model by highlighting historical developments in the U.S.
State of the Union addresses and was found to replicate the prevailing
political stance in Germany when using the corpus of parties' legislative
manifestos.
- Abstract(参考訳): 文書のスケーリングは、社会科学者のためのテキスト・アズ・データ・アプリケーションにおいて重要な要素であり、様々な確率的アプローチと非確率的アプローチの助けを借りて、話者と当事者の違いを明らかにすることを目的とした政治研究者の大きな関心分野である。
しかし、これらの手法のほとんどは、不可知論的に言葉の袋の仮説に基づいているか、結果をかなりのバイアスで埋め込む外部ソースから借りた事前情報を使うかのどちらかである。
コーパスが長い間文書の集合と見なされてきた場合、コミュニティとして知られる文書の共起に基づき、独立した単語群を区別するために構造をクラスタ化できる連結語の密集したネットワークと見なすこともできる。
本稿では,Wordfish の階層的クラスタリング,すなわち Louvain アルゴリズムに基づく拡張版として CommunityFish を導入し,単語空間ではなく Wordfish メソッドへの入力として,コーパスから出現する意味的かつ独立した n-gram としてコミュニティを生成する。
この戦略は、コミュニティが重複しない構造であるため、Poissonスケーリングモデルの実行の高速化に加えて、当事者や講演者を識別する上で重要な情報的力を持つため、結果の解釈可能性を強調している。
この技法の適用は、亜熱帯のプロキシであると見なされるコミュニティを産み出すのとは別に、合衆国の住所における歴史的発展を強調することで、古典的なWordfishモデルよりも優れており、政党の立法宣言のコーパスを使用する際に、ドイツにおける一般的な政治的スタンスを再現することが判明した。
関連論文リスト
- Verified authors shape X/Twitter discursive communities [0.24999074238880484]
X/Twitter上でのイデオロギー/分散コミュニティのコアは,最も情報に富むインタラクションを明らかにすることで,効果的に識別できることを示す。
この分析は、2022年のイタリアにおける主要な政治出来事に関連する3つのX/Twitterデータセットを考慮して行われる。
論文 参考訳(メタデータ) (2024-05-08T09:04:46Z) - Tracing the Genealogies of Ideas with Large Language Model Embeddings [0.0]
大規模コーパスにまたがる知的影響を検出する新しい手法を提案する。
この手法を用いて、19世紀の約40万冊のノンフィクション書籍と学術出版物のコーパスから文章をベクトル化する。
論文 参考訳(メタデータ) (2024-01-13T18:42:27Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Optimizing text representations to capture (dis)similarity between
political parties [1.2891210250935146]
政党間の相互類似性をモデル化する問題を考察する。
我々の研究課題は、ロバストなテキスト表現を作成するのに必要な構造情報のレベルである。
我々は、2021年の連邦選挙におけるドイツの政党の宣言について、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-10-21T14:24:57Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Unsupervised Key-phrase Extraction and Clustering for Classification
Scheme in Scientific Publications [0.0]
本稿では,システムマッピング (SM) とシステムレビュー (SR) プロセスの自動化の可能性について検討する。
キーフレーズは教師なしの方法で科学文書から抽出され、対応する分類体系を構築するために使用される。
また、クラスタリングを使って関連するキーフレーズをグループ化する方法についても検討する。
論文 参考訳(メタデータ) (2021-01-25T10:17:33Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。