論文の概要: Contextualization for the Organization of Text Documents Streams
- arxiv url: http://arxiv.org/abs/2206.02632v1
- Date: Mon, 30 May 2022 22:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 08:45:47.714200
- Title: Contextualization for the Organization of Text Documents Streams
- Title(参考訳): テキスト文書ストリームの編成のための文脈化
- Authors: Rui Portocarrero Sarmento, Douglas O. Cardoso, Jo\~ao Gama, Pavel
Brazdil
- Abstract要約: テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。
テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a significant effort by the research community to address the
problem of providing methods to organize documentation with the help of
information Retrieval methods. In this report paper, we present several
experiments with some stream analysis methods to explore streams of text
documents. We use only dynamic algorithms to explore, analyze, and organize the
flux of text documents. This document shows a case study with developed
architectures of a Text Document Stream Organization, using incremental
algorithms like Incremental TextRank, and IS-TFIDF. Both these algorithms are
based on the assumption that the mapping of text documents and their
document-term matrix in lower-dimensional evolving networks provides faster
processing when compared to batch algorithms. With this architecture, and by
using FastText Embedding to retrieve similarity between documents, we compare
methods with large text datasets and ground truth evaluation of clustering
capacities. The datasets used were Reuters and COVID-19 emotions. The results
provide a new view for the contextualization of similarity when approaching
flux of documents organization tasks, based on the similarity between documents
in the flux, and by using mentioned algorithms.
- Abstract(参考訳): 研究コミュニティは、情報検索手法の助けを借りて文書を整理する方法を提供するという課題に対処するために、多大な努力をしてきた。
本稿では,いくつかのストリーム解析手法を用いて,テキスト文書のストリームを探索する実験を行う。
テキスト文書のフラックスを探索、分析、整理するために動的アルゴリズムのみを使用します。
この文書は、Incremental TextRankやIS-TFIDFのようなインクリメンタルアルゴリズムを用いて、テキストドキュメントストリームオーガナイゼーションの先進的なアーキテクチャを用いたケーススタディを示す。
これらのアルゴリズムは、低次元進化ネットワークにおけるテキスト文書のマッピングと文書項行列がバッチアルゴリズムに比べて高速に処理できるという仮定に基づいている。
このアーキテクチャでは,文書間の類似性を検索するためにFastText Embeddingを用いることで,大規模テキストデータセットと比較し,クラスタリング能力の評価を行う。
使用されたデータセットは、ReutersとCOVID-19の感情だった。
その結果,文書間の類似性に基づいて,文書整理作業の流束に接近する際の類似性の文脈化に関する新たな視点が得られた。
関連論文リスト
- In-Context Pretraining: Language Modeling Beyond Document Boundaries [141.22670357089385]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。