論文の概要: GigaEmbeddings: Efficient Russian Language Embedding Model
- arxiv url: http://arxiv.org/abs/2510.22369v1
- Date: Sat, 25 Oct 2025 17:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.111623
- Title: GigaEmbeddings: Efficient Russian Language Embedding Model
- Title(参考訳): GigaEmbeddings: 効率的なロシア語埋め込みモデル
- Authors: Egor Kolodin, Daria Khomich, Nikita Savushkin, Anastasia Ianina, Fyodor Minkin,
- Abstract要約: GigaEmbeddingsは、階層的なインストラクションチューニングを通じて、高性能なロシアのテキスト埋め込みをトレーニングするためのフレームワークである。
私たちの3段階パイプラインは、さまざまな目的を統一し、合成データ生成を活用することで、既存のメソッドの重要な制限に対処します。
GigaEmbeddingsは23の多言語タスクにまたがるruMTEBベンチマークで最先端の結果(69.1 avg.スコア)を達成している。
- 参考スコア(独自算出の注目度): 1.3460582882338625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GigaEmbeddings, a novel framework for training high-performance Russian-focused text embeddings through hierarchical instruction tuning of the decoder-only LLM designed specifically for Russian language (GigaChat-3B). Our three-stage pipeline, comprising large-scale contrastive pre-training in web-scale corpora, fine-tuning with hard negatives, and multitask generalization across retrieval, classification, and clustering tasks, addresses key limitations of existing methods by unifying diverse objectives and leveraging synthetic data generation. Architectural innovations include bidirectional attention for contextual modeling, latent attention pooling for robust sequence aggregation, and strategic pruning of 25% of transformer layers to enhance efficiency without compromising performance. Evaluated on the ruMTEB benchmark spanning 23 multilingual tasks, GigaEmbeddings achieves state-of-the-art results (69.1 avg. score), outperforming strong baselines with a larger number of parameters.
- Abstract(参考訳): 本稿では,特にロシア語(GigaChat-3B)用に設計されたデコーダのみのLLMの階層的命令チューニングを通じて,高性能なロシア語テキスト埋め込みを訓練するための新しいフレームワークであるGigaEmbeddingsを紹介する。
提案する3段階パイプラインは,Webスケールコーパスにおける大規模コントラスト事前学習,ハードネガによる微調整,検索,分類,クラスタリングタスク間のマルチタスク一般化を含む,多様な目的を統一し,合成データ生成を活用することで,既存の手法の重要な限界に対処する。
アーキテクチャの革新には、コンテキストモデリングのための双方向の注意、堅牢なシーケンスアグリゲーションのための潜入注意プーリング、パフォーマンスを損なうことなく効率を高めるためにトランスフォーマー層の25%を戦略的に刈り取ることが含まれる。
ruMTEBベンチマークで評価された23の多言語タスクにおいて、GigaEmbeddingsは最先端の結果(69.1 avg. score)を達成し、多数のパラメータで強いベースラインを上回ります。
関連論文リスト
- AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis [13.528308058170479]
次元アスペクトベース感性分析(DimABSA)に基づくSemEval-2026タスク3のトラックAのためのAILS-NTUAシステムを提案する。
提案手法は,連続的なアスペクトレベルの感情予測のための言語固有バックボーンの微調整と,LoRAを用いた大規模言語モデルの言語固有命令チューニングを併用する。
この統合されたタスク適応型設計は、言語とドメイン間のパラメータ効率の高い特殊化を強調し、強力な有効性を維持しながら、トレーニングと推論の要求を削減できる。
論文 参考訳(メタデータ) (2026-03-05T08:30:59Z) - Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。
EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。
MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-03-02T05:34:45Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - Compass-Embedding v4: Robust Contrastive Learning for Multilingual E-commerce Embeddings [12.049937870582113]
本稿では,東南アジア(SEA)のeコマースシナリオに特化して最適化された高効率多言語埋め込みフレームワークを提案する。
Compass-Embedding v4は3つの課題に対処する。
我々は,コンテキスト基底合成データ生成,言語間翻訳,構造化されたeコマースデータ構築を通じて,多様な学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-12-25T13:41:53Z) - CLaC at DISRPT 2025: Hierarchical Adapters for Cross-Framework Multi-lingual Discourse Relation Classification [0.0509780930114934]
タスク3では、39のコーパスにまたがる17の談話関係ラベルが16の言語と6の談話フレームワークで統合されている。
まず、多言語BERTベースのモデルに2つの引数順序戦略とプログレッシブ・フリーズ比を併用してタスクをベンチマークする。
次に、ゼロショットおよび少数ショット設定でプロンプトベースの大規模言語モデルを評価し、新たに提案された統一ラベルに対してLLMがどう反応するかを理解する。
論文 参考訳(メタデータ) (2025-09-21T03:34:31Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models [90.54780244175511]
我々は、前身のGTE-Qwenシリーズよりも大幅に進歩したQwen3 Embeddingシリーズを紹介する。
Qwen3 Embeddingシリーズは、組み込みタスクと再ランクタスクの両方のためのモデルサイズの範囲を提供する。
Qwen3 Embeddingシリーズは様々なベンチマークで最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-06-05T15:49:48Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Improving Context Modeling in Neural Topic Segmentation [18.92944038749279]
階層型アテンションBiLSTMネットワークに基づくセグメンタを改良し、コンテキストをモデル化する。
最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-07T03:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。