論文の概要: Preserving Multilingual Quality While Tuning Query Encoder on English Only
- arxiv url: http://arxiv.org/abs/2407.00923v3
- Date: Sat, 14 Dec 2024 01:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:22.034347
- Title: Preserving Multilingual Quality While Tuning Query Encoder on English Only
- Title(参考訳): 問合せエンコーダを英語のみに調整した多言語品質の保存
- Authors: Oleg Vasilyev, Randy Sawaya, John Bohannon,
- Abstract要約: 二重経路検索システムのクエリエンコーダは、特定の種類のクエリやドメインに対してチューニングすることができる。
あるクエリエンコーダから別のクエリエンコーダへの切り替えは、容易に実現できます。
エンコーダの汎用的でオリジナルな品質は、狭義のドメインでチューニングされた場合、保存するか、あるいは少なくともあまり劣化しないままにしておくことができるだろうか?
- 参考スコア(独自算出の注目度): 17.799340858082907
- License:
- Abstract: A query encoder of a dual passage retrieval system can be tuned for specific types of queries or domains, while the precomputed and stored documents representations are kept intact. Switching from one query encoder to another when needed is easily feasible, unlike overhauling the embeddings of a whole knowledge base. In this work we raise a question: Can the generic, original qualities of the encoder be preserved or at least left not too degraded when it is tuned on a narrow domain? We conducted experiments on a high quality multilingual embedding model: Tuning it on a single English-only dataset, we observe that the tuning not only preserves the multilingual qualities, but even improves them. The embedding qualities on distinctly different data are also improved or at least preserved. Drawing on our observations, we suggest a more general hypothesis: Tuning with intentionally low learning rate can preserve or improve a system's properties acquired in training, but not specifically targeted by tuning. We call this adiabatic tuning and provide tentative explanations.
- Abstract(参考訳): 二重経路検索システムのクエリエンコーダは特定の種類のクエリやドメインに対して調整可能であり、プリ計算および格納された文書表現はそのまま保持される。
あるクエリエンコーダから別のクエリエンコーダへの切り替えは、知識ベース全体の埋め込みをオーバーホールするのとは異なり、容易に実現できます。
エンコーダの汎用的でオリジナルな性質は、狭いドメインでチューニングされたときに保存されるか、少なくともあまり劣化しないままにするか?
我々は、高品質な多言語埋め込みモデルの実験を行った: 単一の英語のみのデータセットでチューニングすると、チューニングは多言語品質を保っているだけでなく、改善している。
個別に異なるデータへの埋め込み品質も改善されるか、少なくとも保存される。
意図的な学習率の低いチューニングは、トレーニング時に取得したシステムの特性を保存または改善できますが、チューニングを特に対象としていません。
私たちはこれを断続的なチューニングと呼び、暫定的な説明を提供します。
関連論文リスト
- Efficiently Identifying Low-Quality Language Subsets in Multilingual Datasets: A Case Study on a Large-Scale Multilingual Audio Dataset [13.041053110012246]
このような信頼できないサブセットを特定するための統計的テストであるPreference Proportion Testを導入する。
音素書き起こしの下流タスクのトレーニングモデルで、この低品質データをフィルタリングすることで、大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-10-05T21:41:49Z) - Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Fine-grained Language Identification with Multilingual CapsNet Model [0.0]
多言語コンテンツの生成と消費の爆発があります。
リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
音声言語検出の現在の技術は、これらの前線の1つに欠けている可能性がある。
論文 参考訳(メタデータ) (2020-07-12T20:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。