Fugu-MT 論文翻訳(概要): Contextualization for the Organization of Text Documents Streams

論文の概要: Contextualization for the Organization of Text Documents Streams

arxiv url: http://arxiv.org/abs/2206.02632v1
Date: Mon, 30 May 2022 22:25:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-12 08:45:47.714200
Title: Contextualization for the Organization of Text Documents Streams
Title（参考訳）: テキスト文書ストリームの編成のための文脈化
Authors: Rui Portocarrero Sarmento, Douglas O. Cardoso, Jo\~ao Gama, Pavel Brazdil
Abstract要約: テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been a significant effort by the research community to address the problem of providing methods to organize documentation with the help of information Retrieval methods. In this report paper, we present several experiments with some stream analysis methods to explore streams of text documents. We use only dynamic algorithms to explore, analyze, and organize the flux of text documents. This document shows a case study with developed architectures of a Text Document Stream Organization, using incremental algorithms like Incremental TextRank, and IS-TFIDF. Both these algorithms are based on the assumption that the mapping of text documents and their document-term matrix in lower-dimensional evolving networks provides faster processing when compared to batch algorithms. With this architecture, and by using FastText Embedding to retrieve similarity between documents, we compare methods with large text datasets and ground truth evaluation of clustering capacities. The datasets used were Reuters and COVID-19 emotions. The results provide a new view for the contextualization of similarity when approaching flux of documents organization tasks, based on the similarity between documents in the flux, and by using mentioned algorithms.
Abstract（参考訳）: 研究コミュニティは、情報検索手法の助けを借りて文書を整理する方法を提供するという課題に対処するために、多大な努力をしてきた。本稿では,いくつかのストリーム解析手法を用いて,テキスト文書のストリームを探索する実験を行う。テキスト文書のフラックスを探索、分析、整理するために動的アルゴリズムのみを使用します。この文書は、Incremental TextRankやIS-TFIDFのようなインクリメンタルアルゴリズムを用いて、テキストドキュメントストリームオーガナイゼーションの先進的なアーキテクチャを用いたケーススタディを示す。これらのアルゴリズムは、低次元進化ネットワークにおけるテキスト文書のマッピングと文書項行列がバッチアルゴリズムに比べて高速に処理できるという仮定に基づいている。このアーキテクチャでは,文書間の類似性を検索するためにFastText Embeddingを用いることで,大規模テキストデータセットと比較し,クラスタリング能力の評価を行う。使用されたデータセットは、ReutersとCOVID-19の感情だった。その結果,文書間の類似性に基づいて,文書整理作業の流束に接近する際の類似性の文脈化に関する新たな視点が得られた。

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Estimating the Effective Topics of Articles and journals Abstract Using LDA And K-Means Clustering Algorithm [0.2765128393602164]
我々は LDA, K-Means クラスタと語彙データベース WordNet をテキスト文書中のキーフレーズ抽出に使用した。本研究は,誤解を避けることで,学術誌や記事に基づく検索文字列作成を支援する。
論文参考訳（メタデータ） (2025-08-22T02:51:33Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文参考訳（メタデータ） (2024-07-11T09:28:04Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文参考訳（メタデータ） (2023-10-16T17:57:12Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。フレームワークは大規模なベンチマークデータセットで評価される。
論文参考訳（メタデータ） (2023-03-02T12:26:03Z)
Combining Deep Learning and Reasoning for Address Detection in Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文参考訳（メタデータ） (2022-02-07T12:32:00Z)
Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文参考訳（メタデータ） (2021-11-01T04:51:51Z)
Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文参考訳（メタデータ） (2020-12-15T10:52:19Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。