論文の概要: Semantica: Decentralized Search using a LLM-Guided Semantic Tree Overlay
- arxiv url: http://arxiv.org/abs/2502.10151v1
- Date: Fri, 14 Feb 2025 13:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:14.793221
- Title: Semantica: Decentralized Search using a LLM-Guided Semantic Tree Overlay
- Title(参考訳): Semantica: LLM-Guided Semantic Tree Overlayを用いた分散検索
- Authors: Petru Neague, Quinten Stokkink, Naman Goel, Johan Pouwelse,
- Abstract要約: この作業は、意味を捉え、セマンティックオーバーレイネットワークの約束を満たすために、Large Language Modelsからの埋め込みを使用する。
提案アルゴリズムはSemanticaと呼ばれ,言語モデルによって計算された文書埋め込みを利用したプレフィックスツリー(トリー)を構築する。
Semanticaは現在の最先端のアプローチの最大10倍のセマンティックなユーザを見出している。
- 参考スコア(独自算出の注目度): 3.6211159035018383
- License:
- Abstract: Centralized search engines are key for the Internet, but lead to undesirable concentration of power. Decentralized alternatives fail to offer equal document retrieval accuracy and speed. Nevertheless, Semantic Overlay Networks can come close to the performance of centralized solutions when the semantics of documents are properly captured. This work uses embeddings from Large Language Models to capture semantics and fulfill the promise of Semantic Overlay Networks. Our proposed algorithm, called Semantica, constructs a prefix tree (trie) utilizing document embeddings calculated by a language model. Users connect to each other based on the embeddings of their documents, ensuring that semantically similar users are directly linked. Thereby, this construction makes it more likely for user searches to be answered by the users that they are directly connected to, or by the users they are close to in the network connection graph. The implementation of our algorithm also accommodates the semantic diversity of individual users by spawning "clone" user identifiers in the tree. Our experiments use emulation with a real-world workload to show Semantica's ability to identify and connect to similar users quickly. Semantica finds up to ten times more semantically similar users than current state-of-the-art approaches. At the same time, Semantica can retrieve more than two times the number of relevant documents given the same network load. We also make our code publicly available to facilitate further research in the area.
- Abstract(参考訳): 中央集権型検索エンジンはインターネットの鍵だが、電力の集中は望ましくない。
分散化された代替手段は、同等の文書検索精度と速度を提供しない。
それでも、セマンティックオーバーレイネットワークは、ドキュメントの意味が適切にキャプチャされると、集中型ソリューションのパフォーマンスに近づくことができる。
この作業では、セマンティックオーバーレイネットワークの約束を満たすために、Large Language Modelsからの埋め込みを使用する。
提案アルゴリズムはセマンティカ (Semantica) と呼ばれ,言語モデルによって計算された文書の埋め込みを利用したプレフィックスツリー (トリー) を構築する。
ユーザはドキュメントの埋め込みに基づいて相互に接続し、セマンティックに類似したユーザが直接リンクされることを保証する。
これにより、ユーザが直接接続しているユーザや、ネットワーク接続グラフに近接しているユーザによって、ユーザ検索が回答される可能性が高まる。
また,本アルゴリズムの実装により,木に「クローン」ユーザ識別子を生成できる。
実験では,実世界のワークロードを用いたエミュレーションを用いて,Semanticaが類似ユーザを素早く識別し,接続する能力を示す。
Semanticaは、現在の最先端のアプローチの最大10倍のセマンティックなユーザを見つける。
同時に、Semanticaは、同一ネットワーク負荷の2倍以上の関連ドキュメントを検索できる。
また、この領域でのさらなる研究を促進するために、コードの公開も行います。
関連論文リスト
- ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Enhanced vectors for top-k document retrieval in Question Answering [0.0]
本稿では,証拠文書を効率よく正確に検索する別の手法を提案する。
私たちは、それぞれのドキュメント(または私たちの場合のパス)をユニークな識別子に割り当て、それらを使って密度の高いベクトルを生成することで、そうします。
このアプローチにより、リアルタイムクエリベクトルを4ミリ秒で効率的に作成できる。
論文 参考訳(メタデータ) (2022-10-08T07:44:24Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - Evaluation of Siamese Networks for Semantic Code Search [9.302773716125955]
我々は,シームズネットワークが,コードやテキストからリッチな情報を抽出するネットワーク上で,強力なレギュレータとして機能することを示す。
また、これらのネットワークの埋め込み空間を解析し、シームズネットワークのパワーをセマンティックコード検索に活用するための方向性を提供する。
論文 参考訳(メタデータ) (2020-10-12T06:07:39Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。