論文の概要: Evaluating Embedding APIs for Information Retrieval
- arxiv url: http://arxiv.org/abs/2305.06300v1
- Date: Wed, 10 May 2023 16:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:16:12.871512
- Title: Evaluating Embedding APIs for Information Retrieval
- Title(参考訳): 情報検索のための埋め込みAPIの評価
- Authors: Ehsan Kamalloo, Xinyu Zhang, Odunayo Ogundepo, Nandan Thakur, David
Alfonso-Hermelo, Mehdi Rezagholizadeh, Jimmy Lin
- Abstract要約: ドメインの一般化と多言語検索における既存APIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであることに気付きました。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルの方が高いコストで機能する。
- 参考スコア(独自算出の注目度): 51.24236853841468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-increasing size of language models curtails their widespread access
to the community, thereby galvanizing many companies and startups into offering
access to large language models through APIs. One particular API, suitable for
dense retrieval, is the semantic embedding API that builds vector
representations of a given text. With a growing number of APIs at our disposal,
in this paper, our goal is to analyze semantic embedding APIs in realistic
retrieval scenarios in order to assist practitioners and researchers in finding
suitable services according to their needs. Specifically, we wish to
investigate the capabilities of existing APIs on domain generalization and
multilingual retrieval. For this purpose, we evaluate the embedding APIs on two
standard benchmarks, BEIR, and MIRACL. We find that re-ranking BM25 results
using the APIs is a budget-friendly approach and is most effective on English,
in contrast to the standard practice, i.e., employing them as first-stage
retrievers. For non-English retrieval, re-ranking still improves the results,
but a hybrid model with BM25 works best albeit at a higher cost. We hope our
work lays the groundwork for thoroughly evaluating APIs that are critical in
search and more broadly, in information retrieval.
- Abstract(参考訳): 言語モデルのサイズが拡大するにつれ、コミュニティへのアクセスが拡大し、多くの企業やスタートアップがAPIを通じて大きな言語モデルにアクセスできるようになる。
密集検索に適した特定のAPIは、あるテキストのベクトル表現を構築するセマンティック埋め込みAPIである。
対象とするAPIの数が増える中で,本論文では,実践者や研究者がニーズに応じて適切なサービスを見つけるのを支援するために,現実的な検索シナリオにセマンティック埋め込みAPIを組み込むことを目標としています。
具体的には、ドメインの一般化と多言語検索における既存のAPIの機能について検討する。
そこで本研究では,BEIRとMIRACLの2つの標準ベンチマークへの埋め込みAPIの評価を行った。
このAPIを用いてBM25の結果を再ランク付けすることは予算に優しいアプローチであり、標準のプラクティスとは対照的に、第一段階のレトリバーとして利用することが最も効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで有効である。
我々は,情報検索において,検索において重要なAPIを徹底的に評価するための基礎を築き上げたい。
関連論文リスト
- Improving Pinterest Search Relevance Using Large Language Models [15.24121687428178]
我々はLarge Language Models (LLM) を検索関連モデルに統合する。
提案手法では,生成的視覚言語モデルから抽出したキャプションを含むコンテンツ表現とともに検索クエリを使用する。
LLMをベースとしたモデルからリアルタイム可観測モデルアーキテクチャと特徴を抽出する。
論文 参考訳(メタデータ) (2024-10-22T16:29:33Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - Contextual API Completion for Unseen Repositories Using LLMs [6.518508607788089]
本稿では,API補完タスクのためのコードリポジトリ内で,グローバルおよびローカルなコンテキスト情報を活用することで幻覚を緩和する新しい手法を提案する。
当社のアプローチは、ローカルAPI補完の最適化に重点を置いて、コード補完タスクの洗練に適合しています。
私たちのツールであるLANCEは、APIトークンの補完と会話APIの補完で、Copilotを143%、Copilotを142%上回っています。
論文 参考訳(メタデータ) (2024-05-07T18:22:28Z) - APICom: Automatic API Completion via Prompt Learning and Adversarial
Training-based Data Augmentation [6.029137544885093]
APIレコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。
これまでの研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化していた。
ニューラルネットワーク翻訳研究領域に動機づけられたこの問題を生成タスクとしてモデル化することができる。
提案手法は,プロンプト学習に基づく新しいアプローチAPIComを提案し,そのプロンプトに応じてクエリに関連するAPIを生成する。
論文 参考訳(メタデータ) (2023-09-13T15:31:50Z) - Dense Sparse Retrieval: Using Sparse Language Models for Inference
Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。
スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文 参考訳(メタデータ) (2023-03-31T20:21:32Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。