論文の概要: OpenMSD: Towards Multilingual Scientific Documents Similarity
Measurement
- arxiv url: http://arxiv.org/abs/2309.10539v1
- Date: Tue, 19 Sep 2023 11:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:55:44.009689
- Title: OpenMSD: Towards Multilingual Scientific Documents Similarity
Measurement
- Title(参考訳): openmsd:多言語科学文書類似度測定に向けて
- Authors: Yang Gao, Ji Ma, Ivan Korotkov, Keith Hall, Dana Alon, Don Metzler
- Abstract要約: 本研究は,多言語科学的文書類似度測定モデルの開発と評価である。
我々は,103言語で74万の論文と778の引用ペアを持つ,最初の多言語科学文書データセットOpen- Access Multilingual Scientific Documents (OpenMSD)を提案する。
- 参考スコア(独自算出の注目度): 11.602151258188862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We develop and evaluate multilingual scientific documents similarity
measurement models in this work. Such models can be used to find related works
in different languages, which can help multilingual researchers find and
explore papers more efficiently. We propose the first multilingual scientific
documents dataset, Open-access Multilingual Scientific Documents (OpenMSD),
which has 74M papers in 103 languages and 778M citation pairs. With OpenMSD, we
pretrain science-specialized language models, and explore different strategies
to derive "related" paper pairs to fine-tune the models, including using a
mixture of citation, co-citation, and bibliographic-coupling pairs. To further
improve the models' performance for non-English papers, we explore the use of
generative language models to enrich the non-English papers with English
summaries. This allows us to leverage the models' English capabilities to
create better representations for non-English papers. Our best model
significantly outperforms strong baselines by 7-16% (in mean average
precision).
- Abstract(参考訳): 本研究は,多言語科学的文書類似度測定モデルの開発と評価である。
このようなモデルは、異なる言語で関連する研究を見つけるために使用することができ、多言語研究者が論文をより効率的に発見し探索するのに役立つ。
103言語で74mの論文と778mの引用ペアを持つ,最初の多言語科学文書データセットであるopen-access multilingual scientific document (openmsd)を提案する。
openmsdでは、科学専門の言語モデルを事前学習し、引用、共引用、書誌結合ペアの混合など、モデルを微調整するために「関連する」紙ペアを導出するための異なる戦略を探求する。
非英語論文におけるモデルの性能をさらに向上させるために、英文要約による非英語論文の強化に生成言語モデルを用いることを検討する。
これにより、モデルの英語能力を活用して、非英語論文のより良い表現を作成できます。
我々の最良のモデルは、強いベースラインを7-16%(平均精度)で上回ります。
関連論文リスト
- Since the Scientific Literature Is Multilingual, Our Models Should Be Too [8.039428445336364]
文献の大部分は多言語であり、現在のモデルとベンチマークはこの言語多様性を反映すべきである、と論じている。
テキストベースのモデルでは、非英語の論文に意味のある表現を作れず、多言語ドメインで非差別的に英語のみのモデルを使用することによるネガティブなユーザ面の影響を強調できる証拠を提供する。
論文 参考訳(メタデータ) (2024-03-27T04:47:10Z) - Towards Better Monolingual Japanese Retrievers with Multi-Vector Models [0.0]
日本語では、最も優れたディープラーニングに基づく検索手法は多言語密着型埋め込みに依存している。
マルチ言語よりも2桁少ないデータで訓練されたマルチベクトルレトリバーのファミリーであるJaColBERTを紹介する。
論文 参考訳(メタデータ) (2023-12-26T18:07:05Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Are pre-trained text representations useful for multilingual and
multi-dimensional language proficiency modeling? [6.294759639481189]
本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。
提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。
論文 参考訳(メタデータ) (2021-02-25T16:23:52Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。