論文の概要: Mapping the Web of Science, a large-scale graph and text-based dataset with LLM embeddings
- arxiv url: http://arxiv.org/abs/2602.04630v1
- Date: Wed, 04 Feb 2026 15:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.580534
- Title: Mapping the Web of Science, a large-scale graph and text-based dataset with LLM embeddings
- Title(参考訳): LLM埋め込みによる大規模グラフとテキストベースのデータセットであるWeb of Scienceのマッピング
- Authors: Tim Kunt, Annika Buchholz, Imene Khebouri, Thorsten Koch, Ida Litzel, Thi Huong Vu,
- Abstract要約: 大きなテキストデータセットは、テキスト自体とセマンティクスを通じて伝達される情報と、リンク、参照、共有属性を通じて他のテキストとの関係という2つのタイプの特徴を継承する。
本稿では,ウェブ・オブ・サイエンス・データセットの新しい埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 0.722741581069214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large text data sets, such as publications, websites, and other text-based media, inherit two distinct types of features: (1) the text itself, its information conveyed through semantics, and (2) its relationship to other texts through links, references, or shared attributes. While the latter can be described as a graph structure and can be handled by a range of established algorithms for classification and prediction, the former has recently gained new potential through the use of LLM embedding models. Demonstrating these possibilities and their practicability, we investigate the Web of Science dataset, containing ~56 million scientific publications through the lens of our proposed embedding method, revealing a self-structured landscape of texts.
- Abstract(参考訳): 出版物、ウェブサイト、その他のテキストベースのメディアなどの大きなテキストデータセットは、(1)テキスト自体、その意味を通して伝達される情報、(2)リンク、参照、共有属性を通じて他のテキストとの関係という2つの異なるタイプの特徴を継承する。
後者はグラフ構造として記述でき、分類と予測のために確立されたアルゴリズムによって処理できるが、LLM埋め込みモデルを用いて最近新たなポテンシャルを得た。
これらの可能性とその実践性を実証し、提案手法のレンズを通して約6500万の科学出版物を含むWeb of Scienceデータセットを調査し、自己構造化されたテキストの風景を明らかにする。
関連論文リスト
- A Novel Graph-Sequence Learning Model for Inductive Text Classification [7.129773362505109]
テキスト分類は、感情分析、偽ニュース検出、世論分析など、下流のテキスト関連タスクにおいて重要な役割を果たしている。
本稿では,先述の問題に対処する新しいグラフシーケンス学習モデル(TextGSL)を提案する。
TextGSLは、いくつかの強力なベースラインと包括的に比較されている。
論文 参考訳(メタデータ) (2025-12-23T06:49:33Z) - Human Mobility Datasets Enriched With Contextual and Social Dimensions [1.0268257686354103]
意味的に富んだ人間の軌道の2つのデータセットと、それらを構築するためのパイプラインを提示する。
トラジェクトリはOpenStreetMapから取得した公開GPSトレースである。
新しいセマンティックな特徴は、大規模言語モデルによって生成された合成的で現実的なソーシャルメディア投稿を含めることである。
論文 参考訳(メタデータ) (2025-09-26T07:45:27Z) - Unify Graph Learning with Text: Unleashing LLM Potentials for Session Search [35.20525123189316]
セッション検索は、ユーザの複雑な情報ニーズを満たすための一連の対話的なクエリとアクションを含む。
現在の戦略は、相互作用のグラフ構造を見渡すことで、深い意味理解のためのシーケンシャルなモデリングを優先している。
テキストベースとグラフベースの両方のアプローチを活用することを目的としたSGR(Symbolic Graph Ranker)を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:05:06Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - GT2Vec: Large Language Models as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
GT2Vecは、大規模言語モデルを利用して、テキストとグラフデータを共同でエンコードするフレームワークである。
従来の作業とは異なり、グラフやテキスト空間をより効果的に整合させるために、コントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。