論文の概要: Contextual Categorization Enhancement through LLMs Latent-Space
- arxiv url: http://arxiv.org/abs/2404.16442v1
- Date: Thu, 25 Apr 2024 09:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:19:10.438466
- Title: Contextual Categorization Enhancement through LLMs Latent-Space
- Title(参考訳): LLMの潜在空間による文脈分類の強化
- Authors: Zineddine Bettouche, Anas Safi, Andreas Fischer,
- Abstract要約: 本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
- 参考スコア(独自算出の注目度): 0.31263095816232184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging transformer models to distill semantic information from texts in the Wikipedia dataset and its associated categories into a latent space. We then explore different approaches based on these encodings to assess and enhance the semantic identity of the categories. Our graphical approach is powered by Convex Hull, while we utilize Hierarchical Navigable Small Worlds (HNSWs) for the hierarchical approach. As a solution to the information loss caused by the dimensionality reduction, we modulate the following mathematical solution: an exponential decay function driven by the Euclidean distances between the high-dimensional encodings of the textual categories. This function represents a filter built around a contextual category and retrieves items with a certain Reconsideration Probability (RP). Retrieving high-RP items serves as a tool for database administrators to improve data groupings by providing recommendations and identifying outliers within a contextual framework.
- Abstract(参考訳): ウィキペディアのような大きなテキストデータセットで分類のセマンティックな品質を管理することは、複雑さとコストの観点から大きな課題を提示している。
本稿では,ウィキペディアデータセットとその関連カテゴリのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
グラフィカルなアプローチはConvex Hullによって実現されていますが、階層的アプローチには階層的ナビゲート可能な小型世界(HNSW)を使用します。
次元減少による情報損失の解として、次の数学的解を変調する: テキストカテゴリーの高次元符号化間のユークリッド距離によって駆動される指数減衰関数。
この関数は、コンテキストカテゴリを中心に構築されたフィルタを表し、あるReconsideration Probability (RP)でアイテムを検索する。
高RP項目を取得することは、データベース管理者がコンテクストフレームワーク内でレコメンデーションを提供し、外れ値を特定することで、データグループ化を改善するためのツールとして機能する。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Generative Sentiment Analysis via Latent Category Distribution and Constrained Decoding [30.05158520307257]
本研究では,生成的感情分析モデルを提案する。
変分オートエンコーダの入力を再構成することにより、モデルがカテゴリとテキストの関係の強さを学習する。
Restaurant-ACOSとLaptop-ACOSデータセットの実験結果は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-07-31T12:29:17Z) - HIRO: Hierarchical Information Retrieval Optimization [0.0]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)に動的に統合することで自然言語処理に革命をもたらした。
RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。
この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。
論文 参考訳(メタデータ) (2024-06-14T12:41:07Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - Semantic Multi-Resolution Communications [31.285983939625098]
マルチタスク学習(MTL)の概念に触発された新しい深層学習マルチ解像度JSCCフレームワークを提案する。
このフレームワークは階層的なレイヤを通じて異なる解像度のデータをエンコードし、現在のレイヤと過去のレイヤの両方をエンコードすることで効果的にデコードする。
このフレームワークはセマンティック通信に大きな可能性を秘めており、データ再構成を超えて特定のセマンティック属性を保存する。
論文 参考訳(メタデータ) (2023-08-22T17:52:44Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。