論文の概要: Clustering Document Parts: Detecting and Characterizing Influence
Campaigns From Documents
- arxiv url: http://arxiv.org/abs/2402.17151v1
- Date: Tue, 27 Feb 2024 02:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:01:39.215709
- Title: Clustering Document Parts: Detecting and Characterizing Influence
Campaigns From Documents
- Title(参考訳): 文書部分のクラスタリング:文書からの影響キャンペーンの検出と特徴付け
- Authors: Zhengxiang Wang, Owen Rambow
- Abstract要約: 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連性を通じて影響キャンペーンに関連するドキュメントを識別する。
- 参考スコア(独自算出の注目度): 6.7044991782262215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel clustering pipeline to detect and characterize influence
campaigns from documents. This approach clusters parts of document, detects
clusters that likely reflect an influence campaign, and then identifies
documents linked to an influence campaign via their association with the
high-influence clusters. Our approach outperforms both the direct
document-level classification and the direct document-level clustering approach
in predicting if a document is part of an influence campaign. We propose
various novel techniques to enhance our pipeline, including using an existing
event factuality prediction system to obtain document parts, and aggregating
multiple clustering experiments to improve the performance of both cluster and
document classification. Classifying documents on the top of clustering not
only accurately extracts the parts of the documents that are relevant to
influence campaigns, but also capture influence campaigns as a coordinated and
holistic phenomenon. Our approach makes possible more fine-grained and
interpretable characterizations of influence campaigns from documents.
- Abstract(参考訳): 本稿では,文書からの影響を検知し,特徴付ける新しいクラスタリングパイプラインを提案する。
このアプローチでは、ドキュメントの一部をクラスタ化し、影響キャンペーンを反映する可能性のあるクラスタを検出し、高影響クラスタとの関連を通じて影響キャンペーンに関連するドキュメントを識別する。
本手法は,文書がインフルエンスキャンペーンの一部であるかどうかを予測する際に,直接文書レベルの分類と直接文書レベルのクラスタリングアプローチの両方に勝る。
本稿では,既存の事象事実予測システムを用いて文書部分を取得し,複数のクラスタリング実験を集約し,クラスタおよび文書分類の性能を向上させるなど,パイプラインを強化するための新しい手法を提案する。
クラスタリングの上に文書を分類することは、影響のあるキャンペーンに関連する文書の一部を正確に抽出するだけでなく、影響のあるキャンペーンを協調的かつ全体的現象として捉えている。
我々の手法は、文書からの影響キャンペーンのよりきめ細やかなキャラクタリゼーションを可能にする。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - On the Detection of Reviewer-Author Collusion Rings From Paper Bidding [71.43634536456844]
衝突リングは、コンピュータサイエンスカンファレンスのピアレビューシステムに大きな脅威をもたらす。
この問題を解決する1つのアプローチは、操作された入札から衝突するレビュアーを検出することである。
衝突環の検出が可能であるという研究はまだ確立されていない。
論文 参考訳(メタデータ) (2024-02-12T18:12:09Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Writing Style Aware Document-level Event Extraction [11.146719375024674]
イベント抽出技術は、ドキュメントから構造情報を自動取得することを目的としている。
既存の研究の多くは、トークンを異なる役割として区別し、文書の書式を無視してこの問題について議論している。
我々は、トークンの役割を判断するための重要な手がかりを含む書体スタイルと、そのようなパターンの無知がパフォーマンスの低下につながるかもしれないと論じる。
論文 参考訳(メタデータ) (2022-01-10T06:54:06Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings [14.225334321146779]
本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T19:58:30Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。