論文の概要: Semantic Tree Inference on Text Corpa using a Nested Density Approach together with Large Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2512.23471v1
- Date: Mon, 29 Dec 2025 13:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.521395
- Title: Semantic Tree Inference on Text Corpa using a Nested Density Approach together with Large Language Model Embeddings
- Title(参考訳): 重み付き密度アプローチと大規模言語モデル埋め込みを用いたテキストコーパス上の意味木推論
- Authors: Thomas Haschka, Joseph Bakarji,
- Abstract要約: 本研究では,意味的関連テキストの階層木を推定するためのネスト密度クラスタリング手法を提案する。
密集クラスタを拡散度の高いクラスタに埋め込むことで、テキスト間の階層的意味関係をキャプチャするツリー構造を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic text classification has undergone significant advances in recent years due to the rise of large language models (LLMs) and their high dimensional embeddings. While LLM-embeddings are frequently used to store and retrieve text by semantic similarity in vector databases, the global structure semantic relationships in text corpora often remains opaque. Herein we propose a nested density clustering approach, to infer hierarchical trees of semantically related texts. The method starts by identifying texts of strong semantic similarity as it searches for dense clusters in LLM embedding space. As the density criterion is gradually relaxed, these dense clusters merge into more diffuse clusters, until the whole dataset is represented by a single cluster - the root of the tree. By embedding dense clusters into increasingly diffuse ones, we construct a tree structure that captures hierarchical semantic relationships among texts. We outline how this approach can be used to classify textual data for abstracts of scientific abstracts as a case study. This enables the data-driven discovery research areas and their subfields without predefined categories. To evaluate the general applicability of the method, we further apply it to established benchmark datasets such as the 20 News- groups and IMDB 50k Movie Reviews, demonstrating its robustness across domains. Finally we discuss possible applications on scientometrics, topic evolution, highlighting how nested density trees can reveal semantic structure and evolution in textual datasets.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の台頭と,その高次元埋め込みにより,意味的テキスト分類が著しく進歩している。
LLM埋め込みはベクトルデータベースにおける意味的類似性によるテキストの保存と検索に頻繁に使用されるが、テキストコーパスにおける大域的構造的意味関係はしばしば不透明である。
本稿では,意味的関連テキストの階層木を推定するためのネスト密度クラスタリング手法を提案する。
この方法は、LLM埋め込み空間内の密集クラスタを探索するときに、強い意味的類似性のテキストを識別することから始まる。
密度の基準が徐々に緩和されるにつれて、これらの高密度クラスタは、データセット全体が単一のクラスタ(木の根)で表現されるまで、より拡散したクラスタにマージされる。
密集クラスタを拡散度の高いクラスタに埋め込むことで、テキスト間の階層的意味関係をキャプチャするツリー構造を構築する。
本稿は, 論文要約のためのテキストデータの分類に, このアプローチをどのように利用できるか, 事例研究として概説する。
これにより、事前に定義されたカテゴリを使わずに、データ駆動の発見研究領域とそのサブフィールドが実現される。
さらに,本手法の適用性を評価するため,20のニュースグループやIMDB 50k Movie Reviewsなどの既存のベンチマークデータセットに適用し,ドメイン間の堅牢性を実証した。
最後に,Scientometricsやトピックの進化,ネスト密度木がテキストデータセットのセマンティック構造や進化を明らかにする方法について論じる。
関連論文リスト
- AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees [66.39371821756649]
適応的で階層的なコンテキスト圧縮のための新しいフレームワークであるAdmTreeを提案する。
AdmTreeは情報密度に基づいて入力されたセグメントをgistトークンを利用して、可変長のセグメントをセマンティックバイナリツリーの葉として要約する。
グローバルなセマンティックコヒーレンスと共に細かな詳細を保存し、位置バイアスを緩和し、コンテンツに動的に適応することによって、AdmTreeは長いコンテキストのセマンティック情報をしっかりと保持する。
論文 参考訳(メタデータ) (2025-12-04T08:04:19Z) - Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation [1.3750624267664158]
二分木を対話的に構築するための再帰的テーマ分割(RTP)を導入する。
ツリーの各ノードは、データを意味的に分割する自然言語の質問であり、完全に解釈可能な分類である。
RTPの質問駆動階層はBERTopicのような強力なベースラインからのキーワードベースのトピックよりも解釈可能であることを示す。
論文 参考訳(メタデータ) (2025-09-26T11:27:22Z) - Explainable Mapper: Charting LLM Embedding Spaces Using Perturbation-Based Explanation and Verification Agents [11.168089496463125]
大規模言語モデル(LLM)は、単語、文、概念間のリッチな意味的および構文的関係をキャプチャする高次元埋め込みを生成する。
これらの埋め込み特性の半自動アノテーションのためのフレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-24T17:43:40Z) - How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Data-driven Coreference-based Ontology Building [48.995395445597225]
参照解決は、伝統的に個々の文書理解のコンポーネントとして使用される。
よりグローバルな視点で、すべてのドキュメントレベルのコア参照関係から、ドメインについて何が学べるかを探求します。
コードとともに、クリエイティブ・コモンズライセンスの下でコア参照チェーンをリリースします。
論文 参考訳(メタデータ) (2024-10-22T14:30:40Z) - Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。