論文の概要: Clustering Document Parts: Detecting and Characterizing Influence Campaigns from Documents
- arxiv url: http://arxiv.org/abs/2402.17151v2
- Date: Fri, 26 Apr 2024 20:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:26:08.336308
- Title: Clustering Document Parts: Detecting and Characterizing Influence Campaigns from Documents
- Title(参考訳): 文書部品のクラスタリング:文書からの影響を検知・特徴づけする
- Authors: Zhengxiang Wang, Owen Rambow,
- Abstract要約: 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連性を通じて影響キャンペーンに関連するドキュメントを識別する。
- 参考スコア(独自算出の注目度): 5.675201846185498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel clustering pipeline to detect and characterize influence campaigns from documents. This approach clusters parts of document, detects clusters that likely reflect an influence campaign, and then identifies documents linked to an influence campaign via their association with the high-influence clusters. Our approach outperforms both the direct document-level classification and the direct document-level clustering approach in predicting if a document is part of an influence campaign. We propose various novel techniques to enhance our pipeline, including using an existing event factuality prediction system to obtain document parts, and aggregating multiple clustering experiments to improve the performance of both cluster and document classification. Classifying documents after clustering not only accurately extracts the parts of the documents that are relevant to influence campaigns, but also captures influence campaigns as a coordinated and holistic phenomenon. Our approach makes possible more fine-grained and interpretable characterizations of influence campaigns from documents.
- Abstract(参考訳): 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連性を通じて影響キャンペーンに関連するドキュメントを識別する。
本手法は、文書が影響キャンペーンの一部であるかどうかを予測する際に、直接文書レベルの分類と直接文書レベルのクラスタリングの両方に優れる。
本稿では,既存の事象事実予測システムを用いて文書部分を取得するとともに,複数のクラスタリング実験を集約し,クラスタと文書の分類性能を向上させるなど,パイプラインを強化するための新しい手法を提案する。
クラスタリング後の文書の分類は、キャンペーンに関連する文書の一部を正確に抽出するだけでなく、コーディネートされた総合的な現象として影響キャンペーンを捉えている。
我々の手法は、文書からの影響キャンペーンのよりきめ細やかなキャラクタリゼーションを可能にする。
関連論文リスト
- Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - On the Detection of Reviewer-Author Collusion Rings From Paper Bidding [71.43634536456844]
衝突リングは、コンピュータサイエンスカンファレンスのピアレビューシステムに大きな脅威をもたらす。
この問題を解決する1つのアプローチは、操作された入札から衝突するレビュアーを検出することである。
衝突環の検出が可能であるという研究はまだ確立されていない。
論文 参考訳(メタデータ) (2024-02-12T18:12:09Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Writing Style Aware Document-level Event Extraction [11.146719375024674]
イベント抽出技術は、ドキュメントから構造情報を自動取得することを目的としている。
既存の研究の多くは、トークンを異なる役割として区別し、文書の書式を無視してこの問題について議論している。
我々は、トークンの役割を判断するための重要な手がかりを含む書体スタイルと、そのようなパターンの無知がパフォーマンスの低下につながるかもしれないと論じる。
論文 参考訳(メタデータ) (2022-01-10T06:54:06Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。