論文の概要: GigaEmbeddings: Efficient Russian Language Embedding Model
- arxiv url: http://arxiv.org/abs/2510.22369v1
- Date: Sat, 25 Oct 2025 17:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.111623
- Title: GigaEmbeddings: Efficient Russian Language Embedding Model
- Title(参考訳): GigaEmbeddings: 効率的なロシア語埋め込みモデル
- Authors: Egor Kolodin, Daria Khomich, Nikita Savushkin, Anastasia Ianina, Fyodor Minkin,
- Abstract要約: GigaEmbeddingsは、階層的なインストラクションチューニングを通じて、高性能なロシアのテキスト埋め込みをトレーニングするためのフレームワークである。
私たちの3段階パイプラインは、さまざまな目的を統一し、合成データ生成を活用することで、既存のメソッドの重要な制限に対処します。
GigaEmbeddingsは23の多言語タスクにまたがるruMTEBベンチマークで最先端の結果(69.1 avg.スコア)を達成している。
- 参考スコア(独自算出の注目度): 1.3460582882338625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GigaEmbeddings, a novel framework for training high-performance Russian-focused text embeddings through hierarchical instruction tuning of the decoder-only LLM designed specifically for Russian language (GigaChat-3B). Our three-stage pipeline, comprising large-scale contrastive pre-training in web-scale corpora, fine-tuning with hard negatives, and multitask generalization across retrieval, classification, and clustering tasks, addresses key limitations of existing methods by unifying diverse objectives and leveraging synthetic data generation. Architectural innovations include bidirectional attention for contextual modeling, latent attention pooling for robust sequence aggregation, and strategic pruning of 25% of transformer layers to enhance efficiency without compromising performance. Evaluated on the ruMTEB benchmark spanning 23 multilingual tasks, GigaEmbeddings achieves state-of-the-art results (69.1 avg. score), outperforming strong baselines with a larger number of parameters.
- Abstract(参考訳): 本稿では,特にロシア語(GigaChat-3B)用に設計されたデコーダのみのLLMの階層的命令チューニングを通じて,高性能なロシア語テキスト埋め込みを訓練するための新しいフレームワークであるGigaEmbeddingsを紹介する。
提案する3段階パイプラインは,Webスケールコーパスにおける大規模コントラスト事前学習,ハードネガによる微調整,検索,分類,クラスタリングタスク間のマルチタスク一般化を含む,多様な目的を統一し,合成データ生成を活用することで,既存の手法の重要な限界に対処する。
アーキテクチャの革新には、コンテキストモデリングのための双方向の注意、堅牢なシーケンスアグリゲーションのための潜入注意プーリング、パフォーマンスを損なうことなく効率を高めるためにトランスフォーマー層の25%を戦略的に刈り取ることが含まれる。
ruMTEBベンチマークで評価された23の多言語タスクにおいて、GigaEmbeddingsは最先端の結果(69.1 avg. score)を達成し、多数のパラメータで強いベースラインを上回ります。
関連論文リスト
- CLaC at DISRPT 2025: Hierarchical Adapters for Cross-Framework Multi-lingual Discourse Relation Classification [0.0509780930114934]
タスク3では、39のコーパスにまたがる17の談話関係ラベルが16の言語と6の談話フレームワークで統合されている。
まず、多言語BERTベースのモデルに2つの引数順序戦略とプログレッシブ・フリーズ比を併用してタスクをベンチマークする。
次に、ゼロショットおよび少数ショット設定でプロンプトベースの大規模言語モデルを評価し、新たに提案された統一ラベルに対してLLMがどう反応するかを理解する。
論文 参考訳(メタデータ) (2025-09-21T03:34:31Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models [90.54780244175511]
我々は、前身のGTE-Qwenシリーズよりも大幅に進歩したQwen3 Embeddingシリーズを紹介する。
Qwen3 Embeddingシリーズは、組み込みタスクと再ランクタスクの両方のためのモデルサイズの範囲を提供する。
Qwen3 Embeddingシリーズは様々なベンチマークで最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-06-05T15:49:48Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Improving Context Modeling in Neural Topic Segmentation [18.92944038749279]
階層型アテンションBiLSTMネットワークに基づくセグメンタを改良し、コンテキストをモデル化する。
最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-07T03:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。