論文の概要: Contextual Categorization Enhancement through LLMs Latent-Space
- arxiv url: http://arxiv.org/abs/2404.16442v1
- Date: Thu, 25 Apr 2024 09:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:19:10.438466
- Title: Contextual Categorization Enhancement through LLMs Latent-Space
- Title(参考訳): LLMの潜在空間による文脈分類の強化
- Authors: Zineddine Bettouche, Anas Safi, Andreas Fischer,
- Abstract要約: 本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
- 参考スコア(独自算出の注目度): 0.31263095816232184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging transformer models to distill semantic information from texts in the Wikipedia dataset and its associated categories into a latent space. We then explore different approaches based on these encodings to assess and enhance the semantic identity of the categories. Our graphical approach is powered by Convex Hull, while we utilize Hierarchical Navigable Small Worlds (HNSWs) for the hierarchical approach. As a solution to the information loss caused by the dimensionality reduction, we modulate the following mathematical solution: an exponential decay function driven by the Euclidean distances between the high-dimensional encodings of the textual categories. This function represents a filter built around a contextual category and retrieves items with a certain Reconsideration Probability (RP). Retrieving high-RP items serves as a tool for database administrators to improve data groupings by providing recommendations and identifying outliers within a contextual framework.
- Abstract(参考訳): ウィキペディアのような大きなテキストデータセットで分類のセマンティックな品質を管理することは、複雑さとコストの観点から大きな課題を提示している。
本稿では,ウィキペディアデータセットとその関連カテゴリのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
グラフィカルなアプローチはConvex Hullによって実現されていますが、階層的アプローチには階層的ナビゲート可能な小型世界(HNSW)を使用します。
次元減少による情報損失の解として、次の数学的解を変調する: テキストカテゴリーの高次元符号化間のユークリッド距離によって駆動される指数減衰関数。
この関数は、コンテキストカテゴリを中心に構築されたフィルタを表し、あるReconsideration Probability (RP)でアイテムを検索する。
高RP項目を取得することは、データベース管理者がコンテクストフレームワーク内でレコメンデーションを提供し、外れ値を特定することで、データグループ化を改善するためのツールとして機能する。
関連論文リスト
- Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Semantic Multi-Resolution Communications [31.285983939625098]
マルチタスク学習(MTL)の概念に触発された新しい深層学習マルチ解像度JSCCフレームワークを提案する。
このフレームワークは階層的なレイヤを通じて異なる解像度のデータをエンコードし、現在のレイヤと過去のレイヤの両方をエンコードすることで効果的にデコードする。
このフレームワークはセマンティック通信に大きな可能性を秘めており、データ再構成を超えて特定のセマンティック属性を保存する。
論文 参考訳(メタデータ) (2023-08-22T17:52:44Z) - Discriminating Human-authored from ChatGPT-Generated Code Via
Discernable Feature Analysis [2.9398911304923447]
本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。
時間的・空間的セグメンテーションを用いたデータセット浄化手法を考案し,データセットの変形を緩和する。
データリソースをさらに強化するために、我々は、ChatGPT生成コードの1万行からなる広範囲なデータセットを生成する"コード変換"、"機能変換"、"機能カスタマイズ"技術を採用している。
論文 参考訳(メタデータ) (2023-06-26T03:15:06Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。