論文の概要: Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics
- arxiv url: http://arxiv.org/abs/2210.06023v1
- Date: Wed, 12 Oct 2022 08:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:35:18.381486
- Title: Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics
- Title(参考訳): Lbl2Vec: 事前定義されたトピックに関する教師なし文書検索のための埋め込み型アプローチ
- Authors: Tim Schopf, Daniel Braun, Florian Matthes
- Abstract要約: 本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
- 参考スコア(独自算出の注目度): 0.6767885381740952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the task of retrieving documents with predefined
topics from an unlabeled document dataset using an unsupervised approach. The
proposed unsupervised approach requires only a small number of keywords
describing the respective topics and no labeled document. Existing approaches
either heavily relied on a large amount of additionally encoded world knowledge
or on term-document frequencies. Contrariwise, we introduce a method that
learns jointly embedded document and word vectors solely from the unlabeled
document dataset in order to find documents that are semantically similar to
the topics described by the keywords. The proposed method requires almost no
text preprocessing but is simultaneously effective at retrieving relevant
documents with high probability. When successively retrieving documents on
different predefined topics from publicly available and commonly used datasets,
we achieved an average area under the receiver operating characteristic curve
value of 0.95 on one dataset and 0.92 on another. Further, our method can be
used for multiclass document classification, without the need to assign labels
to the dataset in advance. Compared with an unsupervised classification
baseline, we increased F1 scores from 76.6 to 82.7 and from 61.0 to 75.1 on the
respective datasets. For easy replication of our approach, we make the
developed Lbl2Vec code publicly available as a ready-to-use tool under the
3-Clause BSD license.
- Abstract(参考訳): 本稿では、教師なしアプローチを用いて、ラベルのない文書データセットから予め定義されたトピックで文書を検索する作業について考察する。
提案された教師なしのアプローチでは,各トピックを記述したキーワードはごく少数で,ラベル付きドキュメントは不要である。
既存のアプローチは、追加で符号化された世界の知識や、文書の頻度に大きく依存している。
対照的に、キーワードで記述されたトピックにセマンティックに類似した文書を見つけるために、ラベルなし文書データセットからのみに埋め込み文書と単語ベクトルを学習する手法を導入する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
公開および一般的に使用されるデータセットから,事前定義されたトピックに関する文書を連続して検索すると,受信者の特性曲線値が0.95,他のデータセットが0.92という平均領域が達成される。
さらに,本手法は,事前にラベルをデータセットに割り当てることなく,マルチクラス文書分類に利用できる。
教師なしの分類基準と比較して、各データセットのf1スコアを76.6から82.7に、それぞれ61.0から75.1に増やした。
当社のアプローチの複製を容易にするため,開発したLbl2Vecコードを3Clause BSDライセンスの下で使用可能ツールとして公開しています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Document Type Classification using File Names [7.130525292849283]
迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。
重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットよりも高い推論時間のために不足している。
本稿では、TF-IDF特徴抽出に基づくトークン化手法と組み合わせ、軽量教師付き学習モデルを用いた手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T01:42:19Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Multimodal Tree Decoder for Table of Contents Extraction in Document
Images [32.46909366312659]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-12-06T11:38:31Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。