論文の概要: Multi-View Clustering for Open Knowledge Base Canonicalization
- arxiv url: http://arxiv.org/abs/2206.11130v1
- Date: Wed, 22 Jun 2022 14:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:12:06.019023
- Title: Multi-View Clustering for Open Knowledge Base Canonicalization
- Title(参考訳): オープン知識ベース標準化のためのマルチビュークラスタリング
- Authors: Wei Shen, Yang Yang, Yinan Liu
- Abstract要約: 大規模オープンナレッジベース(OKB)における名詞句と関係句は標準化されていない。
CMVCは、知識の2つのビューを協調的に活用し、OKBを標準化するための新しい教師なしフレームワークである。
我々は,複数の実世界のOKBデータセットに対して,最先端の手法に対する広範な実験を通じて,我々のフレームワークの優位性を実証する。
- 参考スコア(独自算出の注目度): 9.976636206355394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open information extraction (OIE) methods extract plenty of OIE triples <noun
phrase, relation phrase, noun phrase> from unstructured text, which compose
large open knowledge bases (OKBs). Noun phrases and relation phrases in such
OKBs are not canonicalized, which leads to scattered and redundant facts. It is
found that two views of knowledge (i.e., a fact view based on the fact triple
and a context view based on the fact triple's source context) provide
complementary information that is vital to the task of OKB canonicalization,
which clusters synonymous noun phrases and relation phrases into the same group
and assigns them unique identifiers. However, these two views of knowledge have
so far been leveraged in isolation by existing works. In this paper, we propose
CMVC, a novel unsupervised framework that leverages these two views of
knowledge jointly for canonicalizing OKBs without the need of manually
annotated labels. To achieve this goal, we propose a multi-view CH K-Means
clustering algorithm to mutually reinforce the clustering of view-specific
embeddings learned from each view by considering their different clustering
qualities. In order to further enhance the canonicalization performance, we
propose a training data optimization strategy in terms of data quantity and
data quality respectively in each particular view to refine the learned
view-specific embeddings in an iterative manner. Additionally, we propose a
Log-Jump algorithm to predict the optimal number of clusters in a data-driven
way without requiring any labels. We demonstrate the superiority of our
framework through extensive experiments on multiple real-world OKB data sets
against state-of-the-art methods.
- Abstract(参考訳): オープン情報抽出 (oie) 手法は, 大規模オープン知識ベース (okbs) を構成する非構造化テキストから, 大量のoie三重項<名詞句, 関係句, 名詞句>を抽出する。
このようなOKBの名詞句や関係句は正規化されておらず、乱れや冗長な事実につながる。
知識の2つの視点(すなわち、事実三重項に基づくファクトビューと、事実三重項のソースコンテキストに基づくコンテキストビュー)は、同義名詞句と関係句を同一のグループに集約し、それら固有の識別子を割り当てるokb標準化のタスクに不可欠な補完的情報を提供する。
しかし、これまでの2つの知識観は、既存の作品によって孤立的に活用されてきた。
本稿では,手動でアノテートしたラベルを必要とせず,これら2つの知識を協調的に活用する新しいフレームワークCMVCを提案する。
この目的を達成するために、各ビューから学習したビュー固有の埋め込みのクラスタリングを、異なるクラスタリング特性を考慮して相互に強化するマルチビューCH K-Meansクラスタリングアルゴリズムを提案する。
正規化性能をさらに向上するため,各視点におけるデータ量とデータ品質の観点からトレーニングデータ最適化戦略を提案し,学習されたビュー固有の埋め込みを反復的に洗練する。
さらに、ラベルを必要とせず、データ駆動方式で最適なクラスタ数を予測できるLog-Jumpアルゴリズムを提案する。
我々は,複数の実世界のOKBデータセットに対して,最先端の手法に対する広範な実験を通じて,我々のフレームワークの優位性を実証する。
関連論文リスト
- Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - Open Knowledge Base Canonicalization with Multi-task Learning [18.053863554106307]
大規模なオープン知識ベース(OKB)は、Web検索のような世界規模のWeb上の多くの知識駆動アプリケーションに不可欠なものである。
OKBの名詞句と関係句は、しばしば冗長性と曖昧さに悩まされ、OKBの正準化の調査を要求する。
現在のソリューションは、高度なクラスタリングアルゴリズムを考案し、知識グラフ埋め込み(KGE)を使用して、標準化プロセスをさらに促進することでOKB標準化に対処している。
我々は、OKB標準化に取り組むためにマルチタスク学習フレームワーク、MulCanonを提案しました。
論文 参考訳(メタデータ) (2024-03-21T08:03:46Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Joint Open Knowledge Base Canonicalization and Linking [24.160755953937763]
オープンナレッジベースにおける名詞句(NP)と関係句(RP)は正規化されていない。
本稿では,因子グラフモデルに基づく新しいフレームワークJOCLを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:38:58Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Joint Entity and Relation Canonicalization in Open Knowledge Graphs
using Variational Autoencoders [11.259587284318835]
オープンナレッジグラフの名詞句と関係句は正規化されず、冗長で曖昧な主語関係対象のトリプルが爆発する。
まず、名詞句と関係句の両方の埋め込み表現を生成し、次にクラスタリングアルゴリズムを使用して、埋め込みを機能としてグループ化します。
本研究では,組込みとクラスタ割り当ての両方をエンドツーエンドアプローチで学習する共同モデルであるCUVA(Canonicalizing Using Variational AutoEncoders)を提案する。
論文 参考訳(メタデータ) (2020-12-08T22:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。