論文の概要: Contextual Categorization Enhancement through LLMs Latent-Space
- arxiv url: http://arxiv.org/abs/2404.16442v1
- Date: Thu, 25 Apr 2024 09:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:19:10.438466
- Title: Contextual Categorization Enhancement through LLMs Latent-Space
- Title(参考訳): LLMの潜在空間による文脈分類の強化
- Authors: Zineddine Bettouche, Anas Safi, Andreas Fischer,
- Abstract要約: 本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
- 参考スコア(独自算出の注目度): 0.31263095816232184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging transformer models to distill semantic information from texts in the Wikipedia dataset and its associated categories into a latent space. We then explore different approaches based on these encodings to assess and enhance the semantic identity of the categories. Our graphical approach is powered by Convex Hull, while we utilize Hierarchical Navigable Small Worlds (HNSWs) for the hierarchical approach. As a solution to the information loss caused by the dimensionality reduction, we modulate the following mathematical solution: an exponential decay function driven by the Euclidean distances between the high-dimensional encodings of the textual categories. This function represents a filter built around a contextual category and retrieves items with a certain Reconsideration Probability (RP). Retrieving high-RP items serves as a tool for database administrators to improve data groupings by providing recommendations and identifying outliers within a contextual framework.
- Abstract(参考訳): ウィキペディアのような大きなテキストデータセットで分類のセマンティックな品質を管理することは、複雑さとコストの観点から大きな課題を提示している。
本稿では,ウィキペディアデータセットとその関連カテゴリのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
グラフィカルなアプローチはConvex Hullによって実現されていますが、階層的アプローチには階層的ナビゲート可能な小型世界(HNSW)を使用します。
次元減少による情報損失の解として、次の数学的解を変調する: テキストカテゴリーの高次元符号化間のユークリッド距離によって駆動される指数減衰関数。
この関数は、コンテキストカテゴリを中心に構築されたフィルタを表し、あるReconsideration Probability (RP)でアイテムを検索する。
高RP項目を取得することは、データベース管理者がコンテクストフレームワーク内でレコメンデーションを提供し、外れ値を特定することで、データグループ化を改善するためのツールとして機能する。
関連論文リスト
- GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - HEAL: Hierarchical Embedding Alignment Loss for Improved Retrieval and Representation Learning [6.2751089721877955]
RAGは、外部文書検索を統合して、ドメイン固有のまたは最新の知識を提供することで、LLM(Large Language Models)を強化する。
RAGの有効性は、取得した文書の関連性に依存し、ドメインの専門コンテンツと埋め込みのセマンティックアライメントに影響される。
本稿では,階層的ファジィクラスタリングと行列分解を併用した新しい手法である階層的エンベディング・アライメント・ロス(HEAL)を紹介する。
論文 参考訳(メタデータ) (2024-12-05T23:10:56Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Generative Sentiment Analysis via Latent Category Distribution and Constrained Decoding [30.05158520307257]
本研究では,生成的感情分析モデルを提案する。
変分オートエンコーダの入力を再構成することにより、モデルがカテゴリとテキストの関係の強さを学習する。
Restaurant-ACOSとLaptop-ACOSデータセットの実験結果は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-07-31T12:29:17Z) - HIRO: Hierarchical Information Retrieval Optimization [0.0]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)に動的に統合することで自然言語処理に革命をもたらした。
RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。
この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。
論文 参考訳(メタデータ) (2024-06-14T12:41:07Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。