論文の概要: LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2302.08387v1
- Date: Thu, 16 Feb 2023 16:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 13:31:01.828337
- Title: LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with
Knowledge Distillation
- Title(参考訳): lealla: 知識蒸留による軽量言語非依存文埋め込みの学習
- Authors: Zhuoyuan Mao and Tetsuji Nakagawa
- Abstract要約: 本研究では,軽量モデルを用いた言語に依存しない文の埋め込みについて検討する。
本研究では,109言語に対して,低次元文埋め込みを高速に構築できることを実証する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language-agnostic sentence embedding models such as LaBSE (Feng
et al., 2022) obtain state-of-the-art performance for parallel sentence
alignment. However, these large-scale models can suffer from inference speed
and computation overhead. This study systematically explores learning
language-agnostic sentence embeddings with lightweight models. We demonstrate
that a thin-deep encoder can construct robust low-dimensional sentence
embeddings for 109 languages. With our proposed distillation methods, we
achieve further improvements by incorporating knowledge from a teacher model.
Empirical results on Tatoeba, United Nations, and BUCC show the effectiveness
of our lightweight models. We release our lightweight language-agnostic
sentence embedding models LEALLA on TensorFlow Hub.
- Abstract(参考訳): LaBSE (Feng et al., 2022) のような大規模言語に依存しない文埋め込みモデルは, 並列文アライメントのための最先端性能を得る。
しかし、これらの大規模モデルは推論速度と計算オーバーヘッドに苦しむことがある。
本研究は,軽量モデルを用いた言語非依存文埋め込みの学習を体系的に検討する。
シンディープエンコーダは、109言語に対してロバストな低次元文埋め込みを構築できることを実証する。
提案する蒸留法により, 教師モデルからの知識を取り入れ, さらなる改善を実現する。
tatoeba、united nations、buccの実証結果は、我々の軽量モデルの有効性を示している。
TensorFlow Hub上に、軽量言語に依存しない文埋め込みモデルLEALLAをリリースします。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。
PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。
また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文 参考訳(メタデータ) (2025-01-04T15:59:33Z) - Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。