論文の概要: Unlocking Insights: Semantic Search in Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2402.13234v1
- Date: Tue, 20 Feb 2024 18:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:39:18.879103
- Title: Unlocking Insights: Semantic Search in Jupyter Notebooks
- Title(参考訳): Unlocking Insights:Jupyterノートブックのセマンティック検索
- Authors: Lan Li, Jinpeng Lv
- Abstract要約: 意味探索能力を高めるために,大規模言語モデルの応用について検討する。
我々の目的は、図や表、関連する関数やメソッド、その他の関連する情報など、生成された出力を取得することである。
本稿では,ノートの全内容の総合的なセマンティック理解を実現するセマンティック検索フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 1.320904960556043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic search, a process aimed at delivering highly relevant search results
by comprehending the searcher's intent and the contextual meaning of terms
within a searchable dataspace, plays a pivotal role in information retrieval.
In this paper, we investigate the application of large language models to
enhance semantic search capabilities, specifically tailored for the domain of
Jupyter Notebooks. Our objective is to retrieve generated outputs, such as
figures or tables, associated functions and methods, and other pertinent
information.
We demonstrate a semantic search framework that achieves a comprehensive
semantic understanding of the entire notebook's contents, enabling it to
effectively handle various types of user queries. Key components of this
framework include:
1). A data preprocessor is designed to handle diverse types of cells within
Jupyter Notebooks, encompassing both markdown and code cells. 2). An innovative
methodology is devised to address token size limitations that arise with
code-type cells. We implement a finer-grained approach to data input,
transitioning from the cell level to the function level, effectively resolving
these issues.
- Abstract(参考訳): セマンティック検索(Semantic search)は,検索対象の意図と,検索可能なデータ空間内の用語の文脈的意味を理解することによって,関連性の高い検索結果を提供するプロセスである。
本稿では,Jupyter Notebooksのドメインに適した意味探索機能向上のための大規模言語モデルの適用について検討する。
我々の目的は、図や表、関連する関数やメソッド、その他の関連する情報などの生成された出力を取得することである。
我々は,ノートブックの内容全体を包括的に意味的に理解し,様々なタイプのユーザクエリを効果的に処理できるセマンティック検索フレームワークを実証する。
このフレームワークの主なコンポーネントは以下のとおりである。
データプリプロセッサはJupyter Notebook内の様々なタイプのセルを扱うように設計されており、マークダウンとコードセルの両方を含んでいる。
2).
コード型セルで発生するトークンサイズの制限に対処するために,革新的な手法が考案された。
データ入力に対してよりきめ細かいアプローチを実装し、セルレベルから関数レベルへ遷移し、これらの問題を効果的に解決する。
関連論文リスト
- QUIDS: Query Intent Generation via Dual Space Modeling [12.572815037915348]
本稿では,検索意図の理解を説明するために,返却文書における意味的関連性および無関係情報を利用する二重空間モデルを提案する。
提案手法は高品質な問合せインテント記述を生成し,既存の手法と最先端の問合せベース要約手法を比較検討する。
論文 参考訳(メタデータ) (2024-10-16T09:28:58Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines [0.0]
本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。
この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
論文 参考訳(メタデータ) (2021-03-01T07:19:16Z) - Intent Classification and Slot Filling for Privacy Policies [34.606121042708864]
PolicyIEは、ウェブサイトとモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250の意図と11,788のスロットアノテーションからなるコーパスです。
本研究は,(1)連関タギングとして意図分類とスロット充填を定式化し,(2)シーケンス・ツー・シーケンス学習タスクとしてモデル化する,2つのニューラルネットワークアプローチをベースラインとして提案する。
論文 参考訳(メタデータ) (2021-01-01T00:44:41Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Deep Search Query Intent Understanding [17.79430887321982]
本稿では,検索の異なる段階における問合せ意図をモデル化するための総合的な学習フレームワークの提供を目的とする。
我々は,1) 文字レベルモデルを用いたタイプアヘッド検索において,入力したユーザの意図をオンザフライで予測すること,2) 完全クエリのための正確な単語レベルの意図予測モデルに焦点をあてる。
論文 参考訳(メタデータ) (2020-08-15T18:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。