論文の概要: Contextualization for the Organization of Text Documents Streams
- arxiv url: http://arxiv.org/abs/2206.02632v1
- Date: Mon, 30 May 2022 22:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 08:45:47.714200
- Title: Contextualization for the Organization of Text Documents Streams
- Title(参考訳): テキスト文書ストリームの編成のための文脈化
- Authors: Rui Portocarrero Sarmento, Douglas O. Cardoso, Jo\~ao Gama, Pavel
Brazdil
- Abstract要約: テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。
テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a significant effort by the research community to address the
problem of providing methods to organize documentation with the help of
information Retrieval methods. In this report paper, we present several
experiments with some stream analysis methods to explore streams of text
documents. We use only dynamic algorithms to explore, analyze, and organize the
flux of text documents. This document shows a case study with developed
architectures of a Text Document Stream Organization, using incremental
algorithms like Incremental TextRank, and IS-TFIDF. Both these algorithms are
based on the assumption that the mapping of text documents and their
document-term matrix in lower-dimensional evolving networks provides faster
processing when compared to batch algorithms. With this architecture, and by
using FastText Embedding to retrieve similarity between documents, we compare
methods with large text datasets and ground truth evaluation of clustering
capacities. The datasets used were Reuters and COVID-19 emotions. The results
provide a new view for the contextualization of similarity when approaching
flux of documents organization tasks, based on the similarity between documents
in the flux, and by using mentioned algorithms.
- Abstract(参考訳): 研究コミュニティは、情報検索手法の助けを借りて文書を整理する方法を提供するという課題に対処するために、多大な努力をしてきた。
本稿では,いくつかのストリーム解析手法を用いて,テキスト文書のストリームを探索する実験を行う。
テキスト文書のフラックスを探索、分析、整理するために動的アルゴリズムのみを使用します。
この文書は、Incremental TextRankやIS-TFIDFのようなインクリメンタルアルゴリズムを用いて、テキストドキュメントストリームオーガナイゼーションの先進的なアーキテクチャを用いたケーススタディを示す。
これらのアルゴリズムは、低次元進化ネットワークにおけるテキスト文書のマッピングと文書項行列がバッチアルゴリズムに比べて高速に処理できるという仮定に基づいている。
このアーキテクチャでは,文書間の類似性を検索するためにFastText Embeddingを用いることで,大規模テキストデータセットと比較し,クラスタリング能力の評価を行う。
使用されたデータセットは、ReutersとCOVID-19の感情だった。
その結果,文書間の類似性に基づいて,文書整理作業の流束に接近する際の類似性の文脈化に関する新たな視点が得られた。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。