論文の概要: Dialectograms: Machine Learning Differences between Discursive
Communities
- arxiv url: http://arxiv.org/abs/2302.05657v1
- Date: Sat, 11 Feb 2023 11:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:20:29.333986
- Title: Dialectograms: Machine Learning Differences between Discursive
Communities
- Title(参考訳): ディレクトグラム: ディスラプティブコミュニティ間の機械学習の違い
- Authors: Thyge Enggaard (1), August Lohse (1), Morten Axel Pedersen (1 and 2),
Sune Lehmann (1 and 3) ((1) Copenhagen Center for Social Data Science,
University of Copenhagen, Denmark, (2) Department of Anthropology, University
of Copenhagen, Denmark, (3) DTU Compute, Technical University of Denmark,
Denmark)
- Abstract要約: 単語の埋め込みを利用して、単語の使い方を地図化することで、完全な埋め込み空間の豊かさを活用するための一歩を踏み出した。
そこで本研究では,単語の用法に違いがあり,頻繁な単語や多文語を抽出する既存手法の傾向を克服する新しい尺度を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings provide an unsupervised way to understand differences in word
usage between discursive communities. A number of recent papers have focused on
identifying words that are used differently by two or more communities. But
word embeddings are complex, high-dimensional spaces and a focus on identifying
differences only captures a fraction of their richness. Here, we take a step
towards leveraging the richness of the full embedding space, by using word
embeddings to map out how words are used differently. Specifically, we describe
the construction of dialectograms, an unsupervised way to visually explore the
characteristic ways in which each community use a focal word. Based on these
dialectograms, we provide a new measure of the degree to which words are used
differently that overcomes the tendency for existing measures to pick out low
frequent or polysemous words. We apply our methods to explore the discourses of
two US political subreddits and show how our methods identify stark affective
polarisation of politicians and political entities, differences in the
assessment of proper political action as well as disagreement about whether
certain issues require political intervention at all.
- Abstract(参考訳): 単語埋め込みは、分散的コミュニティ間の単語使用量の違いを理解するための教師なしの方法を提供する。
最近の論文では、2つ以上のコミュニティで異なる方法で使用される単語の識別に焦点が当てられている。
しかし、単語埋め込みは複雑で高次元の空間であり、違いを識別することに注力することは、その豊かさのほんの一部しか捉えない。
ここでは、単語埋め込みを使って単語がどのように異なる使われ方をマッピングすることで、完全な埋め込み空間の豊かさを活用するための一歩を踏み出します。
具体的には、各コミュニティが焦点単語を使用する特徴的手法を視覚的に探索するための教師なしの方法である方言図の作成について述べる。
これらの弁証法に基づいて, 単語の出現頻度が低かったり多種多種多様な単語を抽出できる既存の尺度の傾向を克服し, 単語の使い分けの度合いを新たに測定した。
我々は,米国の2つの政治サブレディットの談話を調査し,我々の手法が政治家と政治団体の極めて影響のある分極をいかに識別するか,適切な政治行動の評価の相違や,特定の問題に政治介入が全く必要かどうかの意見の相違を示す。
関連論文リスト
- Bridging Dictionary: AI-Generated Dictionary of Partisan Language Use [21.15400893251543]
Bridging Dictionaryは、異なる政治的見解を持つ人々によって、言葉がどのように認識されているかを示すインタラクティブなツールである。
Bridging Dictionaryには、静的で印刷可能なドキュメントが含まれており、大きな言語モデルによって生成された要約を含む796の用語がある。
ユーザーは選択した単語を探索し、その頻度、感情、要約、政治的分裂の例を視覚化することができる。
論文 参考訳(メタデータ) (2024-07-12T19:44:40Z) - Moral consensus and divergence in partisan language use [0.0]
政治的議論では分極化が著しく増加し、党派分裂の拡大に寄与した。
我々はRedditコミュニティやニュースメディアで大規模で現実的な言語の使用を分析し、パルチザン言語を分割した心理的次元を明らかにする。
論文 参考訳(メタデータ) (2023-10-14T16:50:26Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Discovering Differences in the Representation of People using
Contextualized Semantic Axes [5.972927416266617]
文脈化された意味軸を用いて、同じ単語のインスタンス間の差異を特徴付ける。
女性への言及や、女性を取り巻く文脈が、時間とともに明らかになりつつあることを示す。
論文 参考訳(メタデータ) (2022-10-21T18:02:19Z) - Detecting Political Biases of Named Entities and Hashtags on Twitter [28.02430167720734]
米国のイデオロギー部門は、日々のコミュニケーションにおいてますます顕著になっている。
テキストコーパス内の政治的バイアスを検出することで、そのテキストの極性を記述し、識別しようとすることができる。
極性を考慮したマルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2022-09-16T18:00:13Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Cultural Cartography with Word Embeddings [0.0]
本稿では,単語の埋め込みが社会学における意味論とどのように一致しているかを示す。
まず、条件を一定に保ち、埋め込み空間が周囲をどう動くかを測定することができる。
第二に、埋め込み空間定数を保持して、ドキュメントや著者がそれに対してどのように動くかを確認することもできる。
論文 参考訳(メタデータ) (2020-07-09T01:58:28Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。