論文の概要: Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search
- arxiv url: http://arxiv.org/abs/2406.07990v1
- Date: Wed, 12 Jun 2024 08:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:45:58.600856
- Title: Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search
- Title(参考訳): Blowfish:意味探索におけるあいまいさの定量化のためのトポロジカルおよび統計的シグネチャ
- Authors: Thomas Roland Barillot, Alex De Castro,
- Abstract要約: 提案手法では, プロキシのあいまいなクエリは, プロキシのクリアなクエリよりも, 0 と 1 をベースとした関数の分布が異なることを示す。
本稿では,これらの知見を意味的類似性の新たな評価戦略として活用する戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This works reports evidence for the topological signatures of ambiguity in sentence embeddings that could be leveraged for ranking and/or explanation purposes in the context of vector search and Retrieval Augmented Generation (RAG) systems. We proposed a working definition of ambiguity and designed an experiment where we have broken down a proprietary dataset into collections of chunks of varying size - 3, 5, and 10 lines and used the different collections successively as queries and answers sets. It allowed us to test the signatures of ambiguity with removal of confounding factors. Our results show that proxy ambiguous queries (size 10 queries against size 3 documents) display different distributions of homologies 0 and 1 based features than proxy clear queries (size 5 queries against size 10 documents). We then discuss those results in terms increased manifold complexity and/or approximately discontinuous embedding submanifolds. Finally we propose a strategy to leverage those findings as a new scoring strategy of semantic similarities.
- Abstract(参考訳): 本研究は,ベクトル探索および検索拡張生成システム(RAG)の文脈において,文章埋め込みにおける曖昧さのトポロジ的シグネチャの証拠を述べる。
我々は、あいまいさの動作定義を提案し、プロプライエタリなデータセットを3、5、10行のチャンクの集合に分割し、クエリや回答セットとして、それぞれのコレクションを順次使用した実験を設計した。
これにより、相反する要因を除去することで曖昧さのシグネチャをテストすることができました。
以上の結果から,プロキシのあいまいなクエリ(サイズ3のドキュメントに対して10のクエリ)は,プロキシのクリアなクエリ(サイズ10のドキュメントに対して5のクエリ)よりも,ホモロジー0と1ベースの機能の分布が異なることがわかった。
次に、これらの結果は多様体の複雑さの増加や、あるいはおよそ不連続な埋め込み部分多様体の観点から議論する。
最後に,これらの知見を意味的類似性の新たな評価戦略として活用する戦略を提案する。
関連論文リスト
- SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations [36.70770411188946]
QUESTは、暗黙のセット操作を備えた3357の自然言語クエリのデータセットである。
データセットは、クエリで言及された複数の制約と、ドキュメントの対応するエビデンスにマッチするようにモデルに挑戦する。
我々は,現代の検索システムを分析し,それらがこのようなクエリに苦しむ場合が多いことを発見した。
論文 参考訳(メタデータ) (2023-05-19T14:19:32Z) - Explain like I am BM25: Interpreting a Dense Model's Ranked-List with a
Sparse Approximation [19.922420813509518]
我々は,NAMの結果とスパース検索システムの結果集合との類似性を最大化することによって生成される等価クエリの概念を紹介する。
次に、このアプローチをRM3ベースのクエリ拡張のような既存の手法と比較する。
論文 参考訳(メタデータ) (2023-04-25T07:58:38Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity
Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。
クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。
FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2022-05-11T17:23:37Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z) - Improving Query Safety at Pinterest [46.57632646205479]
PinSetsはクエリセット拡張のためのシステムである。
ユーザセッションの検索にはシンプルだが強力なメカニズムが適用される。
小さなシードセットを何千もの関連するクエリにほぼ完全な精度で拡張する。
論文 参考訳(メタデータ) (2020-06-20T07:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。