論文の概要: LGDE: Local Graph-based Dictionary Expansion
- arxiv url: http://arxiv.org/abs/2405.07764v2
- Date: Thu, 18 Jul 2024 06:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:42:05.700889
- Title: LGDE: Local Graph-based Dictionary Expansion
- Title(参考訳): LGDE: ローカルグラフベースの辞書の拡張
- Authors: Dominik J. Schindler, Sneha Jha, Xixuan Zhang, Kilian Buehling, Annett Heft, Mauricio Barahona,
- Abstract要約: ローカルグラフベース辞書拡張(英: Local Graph-based Dictionary Expansion、LGDE)は、単語の意味的近傍をデータ駆動で発見する手法である。
本稿では,LGDEが単語の類似性に基づくしきい値法よりもはるかに優れた性能で,キーワードのリストを充実させることを示す。
実験結果と専門ユーザ評価の結果から,LGDEは,多様体学習に基づく類似性ネットワークにより,より有用なキーワードでシード辞書を拡張していることが示唆された。
- 参考スコア(独自算出の注目度): 0.923607423080658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Local Graph-based Dictionary Expansion (LGDE), a method for data-driven discovery of the semantic neighbourhood of words using tools from manifold learning and network science. At the heart of LGDE lies the creation of a word similarity graph from the geometry of word embeddings followed by local community detection based on graph diffusion. The diffusion in the local graph manifold allows the exploration of the complex nonlinear geometry of word embeddings to capture word similarities based on paths of semantic association, over and above direct pairwise similarities. Exploiting such semantic neighbourhoods enables the expansion of dictionaries of pre-selected keywords, an important step for tasks in information retrieval, such as database queries and online data collection. We validate LGDE on a corpus of English-language hate speech-related posts from Reddit and Gab and show that LGDE enriches the list of keywords with significantly better performance than threshold methods based on direct word similarities. We further demonstrate our method through a real-world use case from communication science, where LGDE is evaluated quantitatively on the expansion of a conspiracy-related dictionary from online data collected and analysed by domain experts. Our empirical results and expert user assessment indicate that LGDE expands the seed dictionary with more useful keywords due to the manifold-learning-based similarity network.
- Abstract(参考訳): 本稿では,局所グラフに基づく辞書拡張(LGDE)を提案する。これは,多様体学習とネットワーク科学のツールを用いて,単語の意味領域をデータ駆動で発見する手法である。
LGDEの中心には、単語埋め込みの幾何学から単語類似性グラフの作成と、グラフ拡散に基づく局所的なコミュニティ検出がある。
局所グラフ多様体の拡散により、単語埋め込みの複素非線形幾何を探索し、意味的関連の経路に基づいて単語類似性を捉えることができる。
このようなセマンティックな領域の展開により、事前選択されたキーワードの辞書の拡張が可能になり、データベースクエリやオンラインデータ収集などの情報検索におけるタスクの重要なステップとなる。
Reddit と Gab の英語ヘイトスピーチ関連記事のコーパス上で LGDE を検証した結果,LGDE は単語の類似性に基づくしきい値法よりも格段に高い性能でキーワードのリストを充実させることを示した。
さらに,本手法を実世界の通信科学のユースケースで実証し,ドメインの専門家が収集・分析したオンラインデータから陰謀関連辞書を拡張して,LGDEを定量的に評価する。
実験結果と専門ユーザ評価の結果から,LGDEは,多様体学習に基づく類似性ネットワークにより,より有用なキーワードでシード辞書を拡張していることが示唆された。
関連論文リスト
- Contextual Dictionary Lookup for Knowledge Graph Completion [32.493168863565465]
知識グラフ補完(KGC)は、知識グラフの不完全性(KGs)を解決することを目的として、既知の三重項から欠落するリンクを予測する。
既存の埋め込みモデルは、それぞれの関係を一意なベクトルにマッピングし、異なる実体の下でそれらの特定の粒度のセマンティクスを見渡す。
本稿では,従来の埋め込みモデルを用いて,関係の微粒なセマンティクスをエンド・ツー・エンドで学習することのできる,文脈辞書検索を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T12:13:41Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - VLAD-VSA: Cross-Domain Face Presentation Attack Detection with
Vocabulary Separation and Adaptation [87.9994254822078]
顔提示攻撃(PAD)の場合、スプーフィングキューのほとんどは微妙で局所的な画像パターンである。
VLADアグリゲーション法は,特徴空間を局所的に分割する視覚語彙を用いて局所特徴を定量化する。
提案する語彙分離法は,語彙をドメイン共有語とドメイン固有語に分割する。
論文 参考訳(メタデータ) (2022-02-21T15:27:41Z) - Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings [17.198907789163123]
我々は、単語埋め込みを背景知識として活用して、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-13T21:48:18Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Unsupervised Key-phrase Extraction and Clustering for Classification
Scheme in Scientific Publications [0.0]
本稿では,システムマッピング (SM) とシステムレビュー (SR) プロセスの自動化の可能性について検討する。
キーフレーズは教師なしの方法で科学文書から抽出され、対応する分類体系を構築するために使用される。
また、クラスタリングを使って関連するキーフレーズをグループ化する方法についても検討する。
論文 参考訳(メタデータ) (2021-01-25T10:17:33Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Keywords lie far from the mean of all words in local vector space [5.040463208115642]
本研究では,文書の単語の主分布を局所的な単語ベクトル表現を用いてモデル化することにより,テキスト文書からキーワードを検出する異なる経路に従う。
我々は,強いベースラインと最先端の教師なしキーワード抽出手法と比較して,提案手法の高性能性を確認した。
論文 参考訳(メタデータ) (2020-08-21T14:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。