論文の概要: Cross-Lingual Document Retrieval with Smooth Learning
- arxiv url: http://arxiv.org/abs/2011.00701v1
- Date: Mon, 2 Nov 2020 03:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:58:27.788465
- Title: Cross-Lingual Document Retrieval with Smooth Learning
- Title(参考訳): 円滑な学習による言語間文書検索
- Authors: Jiapeng Liu, Xiao Zhang, Dan Goldwasser, Xiao Wang
- Abstract要約: 言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.638708227607214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual document search is an information retrieval task in which the
queries' language differs from the documents' language. In this paper, we study
the instability of neural document search models and propose a novel end-to-end
robust framework that achieves improved performance in cross-lingual search
with different documents' languages. This framework includes a novel measure of
the relevance, smooth cosine similarity, between queries and documents, and a
novel loss function, Smooth Ordinal Search Loss, as the objective. We further
provide theoretical guarantee on the generalization error bound for the
proposed framework. We conduct experiments to compare our approach with other
document search models, and observe significant gains under commonly used
ranking metrics on the cross-lingual document retrieval task in a variety of
languages.
- Abstract(参考訳): クロスリンガル文書検索(cross-lingual document search)は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,ニューラル文書検索モデルの不安定性を考察し,異なる文書言語を用いた言語間検索の性能向上を実現するための,エンドツーエンドのロバストフレームワークを提案する。
このフレームワークは、クエリとドキュメント間の関連性、スムーズなコサイン類似性の新たな尺度と、新しい損失関数であるSmooth Ordinal Search Lossをその目的とする。
さらに,提案フレームワークの一般化誤差を理論的に保証する。
提案手法を他の文書検索モデルと比較する実験を行い,様々な言語における言語間文書検索タスクにおいて,一般的なランキング指標下での有意な向上を観察した。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Detecting Structured Language Alternations in Historical Documents by
Combining Language Identification with Fourier Analysis [0.0]
本稿では,文書内における構造化言語交替の頻度に基づいて,異なる多言語パターンを検出するタスクを紹介する。
我々は、非標準言語とスクリプトの組み合わせであるArmeno-Turkishを用いて、歴史的言語で文書を識別するための一般化可能なワークフローを提案する。
論文 参考訳(メタデータ) (2024-01-25T23:54:34Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking [41.8396866002968]
文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。
我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。
2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-08-22T12:09:12Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Bilingual Topic Models for Comparable Corpora [9.509416095106491]
ペア化された文書の分布間の結合機構を提案する。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
論文 参考訳(メタデータ) (2021-11-30T10:53:41Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines [0.0]
本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。
この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
論文 参考訳(メタデータ) (2021-03-01T07:19:16Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。