論文の概要: MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching
- arxiv url: http://arxiv.org/abs/2010.03617v1
- Date: Wed, 7 Oct 2020 19:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:29:21.783290
- Title: MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching
- Title(参考訳): MuSeM:Mutual Attentive Semantic Matching を用いた連続ニュース見出しの検出
- Authors: Rahul Mishra and Piyush Yadav and Remi Calizzano and Markus Leippold
- Abstract要約: 2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
- 参考スコア(独自算出の注目度): 7.608480381965392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the congruence between two texts has several useful applications,
such as detecting the prevalent deceptive and misleading news headlines on the
web. Many works have proposed machine learning based solutions such as text
similarity between the headline and body text to detect the incongruence. Text
similarity based methods fail to perform well due to different inherent
challenges such as relative length mismatch between the news headline and its
body content and non-overlapping vocabulary. On the other hand, more recent
works that use headline guided attention to learn a headline derived contextual
representation of the news body also result in convoluting overall
representation due to the news body's lengthiness. This paper proposes a method
that uses inter-mutual attention-based semantic matching between the original
and synthetically generated headlines, which utilizes the difference between
all pairs of word embeddings of words involved. The paper also investigates two
more variations of our method, which use concatenation and dot-products of word
embeddings of the words of original and synthetic headlines. We observe that
the proposed method outperforms prior arts significantly for two publicly
available datasets.
- Abstract(参考訳): 2つのテキスト間の一致度を測定するには、web上で広く使われている誤解や誤解を招くニュース見出しを検出するなど、いくつかの有用なアプリケーションがある。
多くの作品は、見出しとボディテキストの間のテキストの類似性のような機械学習に基づくソリューションを提案しており、不明瞭さを検出する。
テキスト類似度に基づく手法は、ニュースヘッドラインとそのボディコンテンツ間の相対的長さミスマッチや重複しない語彙など、固有の課題によりうまく機能しない。
一方で、ニュース本体の文脈表現を見出しから学習するために見出しを導いた最近の作品では、ニュース本体の長所性によって、全体的な表現を畳み込む結果となっている。
本稿では,原語と合成した見出しの相互注意に基づくセマンティックマッチングを用いて,関係する単語のすべての組の単語埋め込みの差を利用した手法を提案する。
また,本手法のさらに2つのバリエーションについて検討し,原語と合成見出しの単語の単語埋め込みの連結とドット積を用いた。
提案手法は2つの公開データセットに対して先行技術よりも優れていた。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - TieFake: Title-Text Similarity and Emotion-Aware Fake News Detection [15.386007761649251]
本稿では,マルチモーダルな文脈情報と著者の感情を共同でモデル化し,テキストの類似性と感情認識型フェイクニュース検出(TieFake)手法を提案する。
具体的には、BERT と ResNeSt を用いて、テキストや画像の表現を学習し、出版者感情抽出器を用いて、ニュースコンテンツにおける著者の主観的感情をキャプチャする。
論文 参考訳(メタデータ) (2023-04-19T04:47:36Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings [0.0]
我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
論文 参考訳(メタデータ) (2021-10-02T18:44:55Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。