論文の概要: Japanese SimCSE Technical Report
- arxiv url: http://arxiv.org/abs/2310.19349v1
- Date: Mon, 30 Oct 2023 08:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:10:29.505157
- Title: Japanese SimCSE Technical Report
- Title(参考訳): 日本SimCSE技術報告
- Authors: Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- Abstract要約: 我々は,SimCSEを微調整した日本語文埋め込みモデルであるSimCSEの開発について報告する。
本報告では,日本語SimCSEの詳細なトレーニング設定と評価結果について述べる。
- 参考スコア(独自算出の注目度): 17.123385806786374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report the development of Japanese SimCSE, Japanese sentence embedding
models fine-tuned with SimCSE. Since there is a lack of sentence embedding
models for Japanese that can be used as a baseline in sentence embedding
research, we conducted extensive experiments on Japanese sentence embeddings
involving 24 pre-trained Japanese or multilingual language models, five
supervised datasets, and four unsupervised datasets. In this report, we provide
the detailed training setup for Japanese SimCSE and their evaluation results.
- Abstract(参考訳): simcseで微調整された日本語文埋め込みモデルの開発について報告する。
文埋め込み研究のベースラインとして使用可能な日本語の文埋め込みモデルが不足していることから,24の日本語・多言語モデル,5つの教師付きデータセット,4つの教師なしデータセットを含む日本語文埋め込みに関する広範な実験を行った。
本報告では,日本語SimCSEの詳細なトレーニング設定と評価結果について述べる。
関連論文リスト
- Ruri: Japanese General Text Embeddings [9.879314903531286]
るり(るり)は、日本の一般的なテキスト埋め込みモデルである。
本稿では,Ruriの開発過程について詳述する。
具体的には,LLMが生成した合成データセットを用いた埋め込みモデルのトレーニングについて論じる。
論文 参考訳(メタデータ) (2024-09-12T04:06:31Z) - Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation [13.713981533436135]
本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
NAIST英語と日本語の単調翻訳評価データセットを用いて,チャンクワイド単調翻訳(CMT)文の特徴を解析した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を評価し,CMT文の特徴について検討した。
論文 参考訳(メタデータ) (2024-06-13T09:10:16Z) - Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer [23.978072734886272]
この研究は、既存の英語資源を効果的に活用して、非英語におけるDocRE研究を促進することを目的としている。
英語のデータセットを日本語に転送することでデータセットを構築する。
翻訳されたデータセットが日本語文書の人間のアノテーションを補助できるかどうかについて検討する。
論文 参考訳(メタデータ) (2024-04-25T10:59:02Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - WeChat Neural Machine Translation Systems for WMT20 [61.03013964996131]
本システムは,有効な変種とDTMTアーキテクチャを備えたTransformerをベースとしている。
実験では,データ選択,複数の合成データ生成手法,高度な微調整手法,自己視覚モデルアンサンブルを用いた。
制約のある中国語と英語のシステムでは36.9のケースセンシティブなBLEUスコアが得られます。
論文 参考訳(メタデータ) (2020-10-01T08:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。