論文の概要: Preserving Multilingual Quality While Tuning Query Encoder on English Only
- arxiv url: http://arxiv.org/abs/2407.00923v2
- Date: Fri, 9 Aug 2024 06:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 18:09:10.954942
- Title: Preserving Multilingual Quality While Tuning Query Encoder on English Only
- Title(参考訳): 問合せエンコーダを英語のみに調整した多言語品質の保存
- Authors: Oleg Vasilyev, Randy Sawaya, John Bohannon,
- Abstract要約: 二重エンコーダの問合せ部が英語のみのデータセットで調整された場合、多言語検索の品質がどの程度劣化するかを調べることを目的として実験を行った。
我々は、英語のみのチューニングが、多言語検索の本来の品質を保っているだけでなく、改善していることを観察する。
- 参考スコア(独自算出の注目度): 17.799340858082907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A dense passage retrieval system can serve as the initial stages of information retrieval, selecting the most relevant text passages for downstream tasks. In this work we conducted experiments with the goal of finding how much the quality of a multilingual retrieval could be degraded if the query part of a dual encoder is tuned on an English-only dataset (assuming scarcity of cross-lingual samples for the targeted domain or task). Specifically, starting with a high quality multilingual embedding model, we observe that an English-only tuning may not only preserve the original quality of the multilingual retrieval, but even improve it.
- Abstract(参考訳): 濃密な経路検索システムは情報検索の初期段階として機能し、下流タスクの最も関連性の高いテキストパスを選択する。
本研究では,二重エンコーダの問合せ部が英語のみのデータセット(対象ドメインやタスクのクロスリンガルサンプルの不足を前提として)で調整された場合,多言語検索の品質がどの程度劣化するかを調べることを目的とした実験を行った。
具体的には、高品質な多言語埋め込みモデルから始めると、英語のみのチューニングは、多言語検索の本来の品質を保ちつつも、それを改善することができる。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - FPT: Feature Prompt Tuning for Few-shot Readability Assessment [14.058586527866426]
豊かな言語知識を取り入れた新しいプロンプトベースのチューニングフレームワークを提案する。
具体的には,テキストから言語的特徴を抽出し,訓練可能なソフトプロンプトに組み込む。
提案手法は,言語関連タスクへの言語的特徴の適応方法に光を当てる,即時チューニングのための新しいアーキテクチャを確立する。
論文 参考訳(メタデータ) (2024-04-03T14:39:47Z) - Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? [41.56585313495218]
視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
本稿では,プロンプトチューニングパラダイムの堅牢性に寄与する主な理由について考察する。
ノイズの多いCLIPからのゼロショット予測は、独自のプロンプトをチューニングするために使用できることを示す。
論文 参考訳(メタデータ) (2023-07-22T04:20:30Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。