論文の概要: Ruri: Japanese General Text Embeddings
- arxiv url: http://arxiv.org/abs/2409.07737v1
- Date: Thu, 12 Sep 2024 04:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:51:48.918437
- Title: Ruri: Japanese General Text Embeddings
- Title(参考訳): Ruri: 和文埋め込み
- Authors: Hayato Tsukagoshi, Ryohei Sasano,
- Abstract要約: るり(るり)は、日本の一般的なテキスト埋め込みモデルである。
本稿では,Ruriの開発過程について詳述する。
具体的には,LLMが生成した合成データセットを用いた埋め込みモデルのトレーニングについて論じる。
- 参考スコア(独自算出の注目度): 9.879314903531286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report the development of Ruri, a series of Japanese general text embedding models. While the development of general-purpose text embedding models in English and multilingual contexts has been active in recent years, model development in Japanese remains insufficient. The primary reasons for this are the lack of datasets and the absence of necessary expertise. In this report, we provide a detailed account of the development process of Ruri. Specifically, we discuss the training of embedding models using synthesized datasets generated by LLMs, the construction of the reranker for dataset filtering and knowledge distillation, and the performance evaluation of the resulting general-purpose text embedding models.
- Abstract(参考訳): 本稿では,日本語の汎用テキスト埋め込みモデルであるRuriの開発について報告する。
近年,英語および多言語文脈における汎用テキスト埋め込みモデルの開発が活発に行われているが,日本語におけるモデル開発はいまだに不十分である。
主な理由はデータセットの欠如と必要な専門知識の欠如である。
本稿では,Ruriの開発過程について詳述する。
具体的には,LLMが生成した合成データセットを用いた埋め込みモデルのトレーニング,データセットフィルタリングと知識蒸留のためのリランカの構築,その結果の汎用テキスト埋め込みモデルの性能評価について論じる。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model [30.055297898544648]
日本語を非英語とみなし、日本語のマルチモーダルデータセットをスクラッチから高速に作成する方法を提案する。
我々は,Webアーカイブから日本語画像テキストペアとインターリーブされたデータを収集し,既存のVLMを用いて画像から直接日本語の指導データを生成する。
実験の結果、これらのネイティブデータセットに基づいて訓練されたVLMは、機械翻訳されたコンテンツに依存するものよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T06:46:33Z) - The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design [39.80182519545138]
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマークを導入している。
論文 参考訳(メタデータ) (2024-08-22T15:53:23Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Japanese SimCSE Technical Report [17.123385806786374]
我々は,SimCSEを微調整した日本語文埋め込みモデルであるSimCSEの開発について報告する。
本報告では,日本語SimCSEの詳細なトレーニング設定と評価結果について述べる。
論文 参考訳(メタデータ) (2023-10-30T08:43:26Z) - Jina Embeddings: A Novel Set of High-Performance Sentence Embedding
Models [4.451741472324815]
Jina Embeddingsは、テキスト入力を数値表現に変換するのに有効な高性能な文埋め込みモデルである。
本稿では、高品質なペアワイドデータセットとトリプルトデータセットの作成から始まる、Jina Embeddingsの開発について詳述する。
MTEB(Massive Text Embedding Benchmark)を用いた総合的なパフォーマンス評価で結論付けている。
論文 参考訳(メタデータ) (2023-07-20T20:37:24Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。