論文の概要: Cross-Lingual Document Retrieval with Smooth Learning
- arxiv url: http://arxiv.org/abs/2011.00701v1
- Date: Mon, 2 Nov 2020 03:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:58:27.788465
- Title: Cross-Lingual Document Retrieval with Smooth Learning
- Title(参考訳): 円滑な学習による言語間文書検索
- Authors: Jiapeng Liu, Xiao Zhang, Dan Goldwasser, Xiao Wang
- Abstract要約: 言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.638708227607214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual document search is an information retrieval task in which the
queries' language differs from the documents' language. In this paper, we study
the instability of neural document search models and propose a novel end-to-end
robust framework that achieves improved performance in cross-lingual search
with different documents' languages. This framework includes a novel measure of
the relevance, smooth cosine similarity, between queries and documents, and a
novel loss function, Smooth Ordinal Search Loss, as the objective. We further
provide theoretical guarantee on the generalization error bound for the
proposed framework. We conduct experiments to compare our approach with other
document search models, and observe significant gains under commonly used
ranking metrics on the cross-lingual document retrieval task in a variety of
languages.
- Abstract(参考訳): クロスリンガル文書検索(cross-lingual document search)は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,ニューラル文書検索モデルの不安定性を考察し,異なる文書言語を用いた言語間検索の性能向上を実現するための,エンドツーエンドのロバストフレームワークを提案する。
このフレームワークは、クエリとドキュメント間の関連性、スムーズなコサイン類似性の新たな尺度と、新しい損失関数であるSmooth Ordinal Search Lossをその目的とする。
さらに,提案フレームワークの一般化誤差を理論的に保証する。
提案手法を他の文書検索モデルと比較する実験を行い,様々な言語における言語間文書検索タスクにおいて,一般的なランキング指標下での有意な向上を観察した。
関連論文リスト
- Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。
これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。
ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - Optimizing Multi-Stage Language Models for Effective Text Retrieval [0.0]
本稿では,日本語の法的データセットに最適化された2相テキスト検索パイプラインを提案する。
提案手法は,高度な言語モデルを用いて最先端の性能を実現する。
堅牢性と適応性をさらに向上するため,複数の検索戦略を統合するアンサンブルモデルを組み込んだ。
論文 参考訳(メタデータ) (2024-12-26T16:05:19Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking [41.8396866002968]
文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。
我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。
2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-08-22T12:09:12Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。