論文の概要: KeyGen2Vec: Learning Document Embedding via Multi-label Keyword
Generation in Question-Answering
- arxiv url: http://arxiv.org/abs/2310.19650v1
- Date: Mon, 30 Oct 2023 15:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:30:29.121026
- Title: KeyGen2Vec: Learning Document Embedding via Multi-label Keyword
Generation in Question-Answering
- Title(参考訳): keygen2vec: 質問応答におけるマルチラベルキーワード生成による学習文書埋め込み
- Authors: Iftitahu Ni'mah and Samaneh Khoshrou and Vlado Menkovski and Mykola
Pechenizkiy
- Abstract要約: 現在の埋め込みモデルは、主にラベル管理の可用性に依存して、その結果の埋め込みの表現力を高めている。
本研究の目的は,Sequence-to-Sequence (Seq2Seq)テキストジェネレータによる文書埋め込みを学習することで,ラベル管理への依存を緩和することである。
- 参考スコア(独自算出の注目度): 20.03094433039241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing documents into high dimensional embedding space while preserving
the structural similarity between document sources has been an ultimate goal
for many works on text representation learning. Current embedding models,
however, mainly rely on the availability of label supervision to increase the
expressiveness of the resulting embeddings. In contrast, unsupervised
embeddings are cheap, but they often cannot capture implicit structure in
target corpus, particularly for samples that come from different distribution
with the pretraining source.
Our study aims to loosen up the dependency on label supervision by learning
document embeddings via Sequence-to-Sequence (Seq2Seq) text generator.
Specifically, we reformulate keyphrase generation task into multi-label keyword
generation in community-based Question Answering (cQA). Our empirical results
show that KeyGen2Vec in general is superior than multi-label keyword classifier
by up to 14.7% based on Purity, Normalized Mutual Information (NMI), and
F1-Score metrics. Interestingly, although in general the absolute advantage of
learning embeddings through label supervision is highly positive across
evaluation datasets, KeyGen2Vec is shown to be competitive with classifier that
exploits topic label supervision in Yahoo! cQA with larger number of latent
topic labels.
- Abstract(参考訳): 文書ソース間の構造的類似性を保ちながら高次元埋め込み空間に文書を表現することは、テキスト表現学習における多くの研究の最終的な目標である。
しかし、現在の埋め込みモデルは、主にラベル管理の可用性に依存して、その結果の埋め込みの表現力を高めている。
対照的に、教師なしの埋め込みは安価であるが、ターゲットコーパスの暗黙的な構造、特にプリトレーニングソースとの異なる分布から来るサンプルをキャプチャできないことが多い。
本研究の目的は,Sequence-to-Sequence (Seq2Seq)テキストジェネレータによる文書埋め込みを学習することで,ラベル管理への依存を緩和することである。
具体的には,コミュニティベース質問応答(cqa)において,キーフレーズ生成タスクをマルチラベルキーワード生成に再構成する。
実験の結果、KeyGen2VecはPurity, Normalized Mutual Information (NMI)、F1-Scoreのメトリクスに基づいて最大14.7%のマルチラベルキーワード分類器よりも優れていることがわかった。
興味深いことに、一般的にラベル管理を通じて埋め込みを学ぶことの絶対的な利点は評価データセット間で非常に肯定的であるが、KeyGen2VecはYahoo! cQAのトピックラベル管理と多くの潜在トピックラベルを利用する分類器と競合している。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Weakly-supervised Text Classification Based on Keyword Graph [30.57722085686241]
GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
論文 参考訳(メタデータ) (2021-10-06T08:58:02Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Joint Learning of Hyperbolic Label Embeddings for Hierarchical
Multi-label Classification [9.996804039553858]
ラベルが階層内に存在するマルチラベル分類の問題を検討する。
共同学習のための新しい定式化を提案し,その効果を実証的に評価する。
論文 参考訳(メタデータ) (2021-01-13T10:58:54Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Exploiting Class Labels to Boost Performance on Embedding-based Text
Classification [16.39344929765961]
異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。
本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
論文 参考訳(メタデータ) (2020-06-03T08:53:40Z) - Finding Black Cat in a Coal Cellar -- Keyphrase Extraction &
Keyphrase-Rubric Relationship Classification from Complex Assignments [5.067828201066184]
本稿では,キーフレーズ抽出作業における教師あり教師なしアプローチの有効性を定量化することを目的とする。
i) 教師なしの MultiPartiteRank がキーフレーズ抽出に最適であることがわかった。
今後,これらの課題に関心のある人々に対して,包括的分析と有用な観察結果の導出を行う。
論文 参考訳(メタデータ) (2020-04-03T13:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。