論文の概要: Clustering Document Parts: Detecting and Characterizing Influence
Campaigns From Documents
- arxiv url: http://arxiv.org/abs/2402.17151v1
- Date: Tue, 27 Feb 2024 02:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:01:39.215709
- Title: Clustering Document Parts: Detecting and Characterizing Influence
Campaigns From Documents
- Title(参考訳): 文書部分のクラスタリング:文書からの影響キャンペーンの検出と特徴付け
- Authors: Zhengxiang Wang, Owen Rambow
- Abstract要約: 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連性を通じて影響キャンペーンに関連するドキュメントを識別する。
- 参考スコア(独自算出の注目度): 6.7044991782262215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel clustering pipeline to detect and characterize influence
campaigns from documents. This approach clusters parts of document, detects
clusters that likely reflect an influence campaign, and then identifies
documents linked to an influence campaign via their association with the
high-influence clusters. Our approach outperforms both the direct
document-level classification and the direct document-level clustering approach
in predicting if a document is part of an influence campaign. We propose
various novel techniques to enhance our pipeline, including using an existing
event factuality prediction system to obtain document parts, and aggregating
multiple clustering experiments to improve the performance of both cluster and
document classification. Classifying documents on the top of clustering not
only accurately extracts the parts of the documents that are relevant to
influence campaigns, but also capture influence campaigns as a coordinated and
holistic phenomenon. Our approach makes possible more fine-grained and
interpretable characterizations of influence campaigns from documents.
- Abstract(参考訳): 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連を通じて影響キャンペーンに関連するドキュメントを識別する。
本手法は,文書がインフルエンスキャンペーンの一部であるかどうかを予測する際に,直接文書レベルの分類と直接文書レベルのクラスタリングアプローチの両方に勝る。
本稿では,既存の事象事実予測システムを用いて文書部分を取得し,複数のクラスタリング実験を集約し,クラスタおよび文書分類の性能を向上させるなど,パイプラインを強化するための新しい手法を提案する。
クラスタリングの上に文書を分類することは、影響のあるキャンペーンに関連する文書の一部を正確に抽出するだけでなく、影響のあるキャンペーンを協調的かつ全体的現象として捉えている。
我々の手法は、文書からの影響キャンペーンのよりきめ細やかなキャラクタリゼーションを可能にする。
関連論文リスト
- On the Detection of Reviewer-Author Collusion Rings From Paper Bidding [71.43634536456844]
衝突リングは、コンピュータサイエンスカンファレンスのピアレビューシステムに大きな脅威をもたらす。
この問題を解決する1つのアプローチは、操作された入札から衝突するレビュアーを検出することである。
衝突環の検出が可能であるという研究はまだ確立されていない。
論文 参考訳(メタデータ) (2024-02-12T18:12:09Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Writing Style Aware Document-level Event Extraction [11.146719375024674]
イベント抽出技術は、ドキュメントから構造情報を自動取得することを目的としている。
既存の研究の多くは、トークンを異なる役割として区別し、文書の書式を無視してこの問題について議論している。
我々は、トークンの役割を判断するための重要な手がかりを含む書体スタイルと、そのようなパターンの無知がパフォーマンスの低下につながるかもしれないと論じる。
論文 参考訳(メタデータ) (2022-01-10T06:54:06Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。