論文の概要: Generalized Word Shift Graphs: A Method for Visualizing and Explaining
Pairwise Comparisons Between Texts
- arxiv url: http://arxiv.org/abs/2008.02250v1
- Date: Wed, 5 Aug 2020 17:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:39:15.081350
- Title: Generalized Word Shift Graphs: A Method for Visualizing and Explaining
Pairwise Comparisons Between Texts
- Title(参考訳): 一般化された単語シフトグラフ:テキスト間のペアワイズ比較の可視化と説明方法
- Authors: Ryan J. Gallagher, Morgan R. Frank, Lewis Mitchell, Aaron J. Schwartz,
Andrew J. Reagan, Christopher M. Danforth, Peter Sheridan Dodds
- Abstract要約: 計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
一般化された単語シフトグラフを導入し、個々の単語が2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、Kulback-LeiblerやJensen-Shannonの発散といったエントロピーに基づく測度など、テキストの比較によく使われる多くのアプローチを自然に含んでいることを示す。
- 参考スコア(独自算出の注目度): 0.15833270109954134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common task in computational text analyses is to quantify how two corpora
differ according to a measurement like word frequency, sentiment, or
information content. However, collapsing the texts' rich stories into a single
number is often conceptually perilous, and it is difficult to confidently
interpret interesting or unexpected textual patterns without looming concerns
about data artifacts or measurement validity. To better capture fine-grained
differences between texts, we introduce generalized word shift graphs,
visualizations which yield a meaningful and interpretable summary of how
individual words contribute to the variation between two texts for any measure
that can be formulated as a weighted average. We show that this framework
naturally encompasses many of the most commonly used approaches for comparing
texts, including relative frequencies, dictionary scores, and entropy-based
measures like the Kullback-Leibler and Jensen-Shannon divergences. Through
several case studies, we demonstrate how generalized word shift graphs can be
flexibly applied across domains for diagnostic investigation, hypothesis
generation, and substantive interpretation. By providing a detailed lens into
textual shifts between corpora, generalized word shift graphs help
computational social scientists, digital humanists, and other text analysis
practitioners fashion more robust scientific narratives.
- Abstract(参考訳): 計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
しかし、テキストのリッチストーリーを1つの数字に分解することは、しばしば概念的に危険であり、データアーティファクトや測定の有効性を心配することなく、興味深いまたは予期せぬテキストパターンを自信を持って解釈することは困難である。
テキスト間の微妙な違いをより正確に把握するために、一般化された単語シフトグラフを導入し、個々の単語が重み付き平均として定式化できる測度に対して2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、およびkullback-leiblerやjensen-shannon divergencesのようなエントロピーに基づく尺度など、テキストを比較するためによく使われる多くの手法を自然に包含している。
いくつかのケーススタディを通じて, 一般化された単語シフトグラフが, 診断調査, 仮説生成, 従属解釈において, ドメイン間で柔軟に適用可能であることを実証する。
コーパス間のテキストシフトに詳細なレンズを提供することで、一般化されたワードシフトグラフは、計算社会科学者、デジタルヒューマニスト、その他のテキスト分析実践者がより堅牢な科学的物語を作るのに役立つ。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Dictionary-Assisted Supervised Contrastive Learning [0.0]
本稿では,辞書支援型教師付きコントラスト学習(DASCL)の目的について紹介する。
共通の固定トークンは、関心の概念に関連する辞書(ies)に現れるコーパス内の任意の単語を置き換える。
DASCLとクロスエントロピーは、数ショットの学習設定と社会科学応用における分類性能指標を改善する。
論文 参考訳(メタデータ) (2022-10-27T04:57:43Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Towards a Theoretical Understanding of Word and Relation Representation [8.020742121274418]
ベクトルまたは埋め込みによる単語の表現は、計算的推論を可能にする。
テキストコーパスと知識グラフから学習した単語埋め込みに注目した。
論文 参考訳(メタデータ) (2022-02-01T15:34:58Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Extractive approach for text summarisation using graphs [0.0]
本稿では,抽出手法を用いてテキスト要約問題の解法に用いるグラフ関連アルゴリズムについて検討する。
文章の重なり合いと、文章の類似度を測定するための編集距離の2つの指標を考察する。
論文 参考訳(メタデータ) (2021-06-21T10:03:34Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Heaps' law and Heaps functions in tagged texts: Evidences of their
linguistic relevance [0.0]
英文学作品75ドルのコーパスにおいて,語彙サイズと文長の関係について検討した。
我々は、各テキストに沿って、各タグの新しい単語の進行的な出現を分析する。
論文 参考訳(メタデータ) (2020-01-07T17:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。