Fugu-MT 論文翻訳(概要): Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines

論文の概要: Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines

arxiv url: http://arxiv.org/abs/2106.07719v1
Date: Mon, 1 Mar 2021 07:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-09 14:17:12.845484
Title: Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines
Title（参考訳）: 大規模多言語検索エンジンのための不偏文エンコーダ
Authors: Mahdi Hajiaghayi, Monir Hajiaghayi, Mark Bolin
Abstract要約: 本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a multi-lingual sentence encoder that can be used in search engines as a query and document encoder. This embedding enables a semantic similarity score between queries and documents that can be an important feature in document ranking and relevancy. To train such a customized sentence encoder, it is beneficial to leverage users search data in the form of query-document clicked pairs however, we must avoid relying too much on search click data as it is biased and does not cover many unseen cases. The search data is heavily skewed towards short queries and for long queries is small and often noisy. The goal is to design a universal multi-lingual encoder that works for all cases and covers both short and long queries. We select a number of public NLI datasets in different languages and translation data and together with user search data we train a language model using a multi-task approach. A challenge is that these datasets are not homogeneous in terms of content, size and the balance ratio. While the public NLI datasets are usually two-sentence based with the same portion of positive and negative pairs, the user search data can contain multi-sentence documents and only positive pairs. We show how multi-task training enables us to leverage all these datasets and exploit knowledge sharing across these tasks.
Abstract（参考訳）: 本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。このようなカスタマイズされた文エンコーダをトレーニングするには、ユーザがクエリドキュメントクリックしたペアの形式でデータを検索するメリットがありますが、偏りがあるため、検索クリックデータに依存しすぎないようにしなくてはなりません。検索データは短いクエリに対して大きく歪められており、長いクエリは小さく、しばしばうるさい。目標は、すべてのケースで動作し、短いクエリと長いクエリの両方をカバーする、普遍的な多言語エンコーダを設計することだ。我々は、異なる言語と翻訳データにおける多くの公開NLIデータセットを選択し、ユーザ検索データとともに、マルチタスクアプローチを用いて言語モデルを訓練する。課題は、これらのデータセットがコンテンツ、サイズ、バランス比の点で均質ではないことである。公開NLIデータセットは通常、正と負のペアの同じ部分に基づいて2文であるのに対し、ユーザ検索データは多文文書と正のペアのみを含むことができる。マルチタスクトレーニングによって、これらのデータセットをすべて活用し、これらのタスク間の知識共有を活用できることを示す。

関連論文リスト

The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora [6.594531626178451]
言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。両言語から等価な検索を行うことにより,この失敗の原因を解消する簡単な検索戦略を提案する。
論文参考訳（メタデータ） (2025-07-10T08:38:31Z)
CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文参考訳（メタデータ） (2025-04-22T20:55:08Z)
Exploring Rewriting Approaches for Different Conversational Tasks [63.56404271441824]
正確な書き換えアプローチは、しばしば、会話アシスタントによってサポートされているユースケースとアプリケーション固有のタスクに依存します。基本的に異なる2つの生成タスクに対して,書き換えと融合という2つの異なるアプローチを体系的に検討した。以上の結果から, 特定の書き換え手法や融合手法は, 基礎となるユースケースや生成課題に大きく依存していることが示唆された。
論文参考訳（メタデータ） (2025-02-26T06:05:29Z)
QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval [12.543590253664492]
我々は、$textitQueryBuilder$という、インタラクティブな新しいシステムを提示します。初心者の英語を話すユーザは、少量の労力でクエリを作成できる。ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発する。
論文参考訳（メタデータ） (2024-09-07T00:46:58Z)
Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文参考訳（メタデータ） (2024-07-04T08:08:33Z)
Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文参考訳（メタデータ） (2024-04-24T10:30:42Z)
Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文参考訳（メタデータ） (2024-04-03T10:05:47Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)
Acoustic span embeddings for multilingual query-by-example search [20.141444548841047]
低リソースまたはゼロリソース設定では、QbE検索は動的時間ワープ(DTW)に基づくアプローチで対処されることが多い。近年の研究では、音響単語埋め込み(AWE)に基づく手法は、性能と探索速度の両方を改善することが判明している。我々は、AWEトレーニングを単語のスパンに一般化し、音響スパン埋め込み(ASE)を生成し、複数の未知言語における任意の長さのクエリへのAWEの適用について検討する。
論文参考訳（メタデータ） (2020-11-24T00:28:22Z)
Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-02T03:17:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。