論文の概要: Effective Seed-Guided Topic Discovery by Integrating Multiple Types of
Contexts
- arxiv url: http://arxiv.org/abs/2212.06002v1
- Date: Mon, 12 Dec 2022 16:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:15:15.156113
- Title: Effective Seed-Guided Topic Discovery by Integrating Multiple Types of
Contexts
- Title(参考訳): 複数種類の文脈の統合による効果的なシードガイド付き話題発見
- Authors: Yu Zhang, Yunyi Zhang, Martin Michalski, Yucheng Jiang, Yu Meng,
Jiawei Han
- Abstract要約: 本稿では,3種類の文脈から共同で学習し,その文脈信号をアンサンブルランキングプロセスを介して融合する反復的フレームワークSeedTopicMineを提案する。
さまざまなシードセットと複数のデータセットに基づいて、SeedTopicMineは、既存のシード誘導トピック発見アプローチよりも一貫性と正確なトピックを一貫して生成する。
- 参考スコア(独自算出の注目度): 28.291684568220827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of mining coherent topics from a given text corpus in a completely
unsupervised manner, seed-guided topic discovery methods leverage user-provided
seed words to extract distinctive and coherent topics so that the mined topics
can better cater to the user's interest. To model the semantic correlation
between words and seeds for discovering topic-indicative terms, existing
seed-guided approaches utilize different types of context signals, such as
document-level word co-occurrences, sliding window-based local contexts, and
generic linguistic knowledge brought by pre-trained language models. In this
work, we analyze and show empirically that each type of context information has
its value and limitation in modeling word semantics under seed guidance, but
combining three types of contexts (i.e., word embeddings learned from local
contexts, pre-trained language model representations obtained from
general-domain training, and topic-indicative sentences retrieved based on seed
information) allows them to complement each other for discovering quality
topics. We propose an iterative framework, SeedTopicMine, which jointly learns
from the three types of contexts and gradually fuses their context signals via
an ensemble ranking process. Under various sets of seeds and on multiple
datasets, SeedTopicMine consistently yields more coherent and accurate topics
than existing seed-guided topic discovery approaches.
- Abstract(参考訳): テキストコーパスから完全に教師されていない方法でコヒーレントなトピックをマイニングする代わりに、シード誘導されたトピック発見手法は、ユーザが提供するシードワードを利用して、ユニークでコヒーレントなトピックを抽出する。
単語とシードのセマンティックな相関関係をモデル化するために、既存のシード誘導アプローチでは、文書レベルの単語共起、スライディングウィンドウベースのローカルコンテキスト、事前訓練された言語モデルによってもたらされる汎用言語知識など、さまざまな種類のコンテキスト信号を利用する。
本研究は,各文脈情報の価値と限界を実例的に分析・示すものであるが,3種類の文脈(局所的な文脈から学習した単語埋め込み,一般ドメイン学習から得られた事前学習された言語モデル表現,およびシード情報に基づいて検索した話題表現文)を組み合わせることで,品質トピックの発見に相互に補完することができる。
本稿では,3種類のコンテキストから共同で学習し,アンサンブルランキングプロセスを通じてコンテキスト信号を徐々に融合する反復的フレームワークSeedTopicMineを提案する。
さまざまなシードセットと複数のデータセットに基づいて、SeedTopicMineは、既存のシード誘導トピック発見アプローチよりも一貫性と正確なトピックを一貫して生成する。
関連論文リスト
- Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Improve Discourse Dependency Parsing with Contextualized Representations [28.916249926065273]
本稿では,異なるレベルの単位の文脈化表現を符号化するトランスフォーマーの活用を提案する。
記事間で共通に共有される記述パターンの観察に動機付けられ,談話関係の識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T14:35:38Z) - Seed-Guided Topic Discovery with Out-of-Vocabulary Seeds [33.744478898032376]
シード誘導されたトピック発見アプローチは、ユーザが提供するシードを利用してトピック表現の用語を発見する。
本稿では,シード誘導された話題発見の課題を一般化し,語彙外種子を許容する。
本研究では,PLMの一般的な知識と,入力コーパスから学習した局所的意味論を相互に活用する,SeeTopicという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T01:49:36Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - A Neural Generative Model for Joint Learning Topics and Topic-Specific
Word Embeddings [42.87769996249732]
共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。
訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。
論文 参考訳(メタデータ) (2020-08-11T13:54:11Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。