論文の概要: Improving Low-Resource Retrieval Effectiveness using Zero-Shot Linguistic Similarity Transfer
- arxiv url: http://arxiv.org/abs/2503.22508v1
- Date: Fri, 28 Mar 2025 15:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:30:44.423317
- Title: Improving Low-Resource Retrieval Effectiveness using Zero-Shot Linguistic Similarity Transfer
- Title(参考訳): ゼロショット言語的類似性伝達を用いた低リソース検索効率の向上
- Authors: Andreas Chari, Sean MacAvaney, Iadh Ounis,
- Abstract要約: グローバリゼーションと植民地化により、世界中の大多数が英語やフランス語などのごく一部の言語を使用するようになった。
このことは、オクシタンやシチリア語など、現在絶滅危惧されている多くの言語が生き残る可能性に大きな影響を与えている。
現状の検索システムは言語の種類によっては堅牢ではなく,検索効率に大きな影響を与えている。
そこで本研究では,2種類の言語品種に対する微調整型ニューラルローダを提案し,それらの言語的類似点にそれらを公開する。
- 参考スコア(独自算出の注目度): 23.572881425446074
- License:
- Abstract: Globalisation and colonisation have led the vast majority of the world to use only a fraction of languages, such as English and French, to communicate, excluding many others. This has severely affected the survivability of many now-deemed vulnerable or endangered languages, such as Occitan and Sicilian. These languages often share some characteristics, such as elements of their grammar and lexicon, with other high-resource languages, e.g. French or Italian. They can be clustered into groups of language varieties with various degrees of mutual intelligibility. Current search systems are not usually trained on many of these low-resource varieties, leading search users to express their needs in a high-resource language instead. This problem is further complicated when most information content is expressed in a high-resource language, inhibiting even more retrieval in low-resource languages. We show that current search systems are not robust across language varieties, severely affecting retrieval effectiveness. Therefore, it would be desirable for these systems to leverage the capabilities of neural models to bridge the differences between these varieties. This can allow users to express their needs in their low-resource variety and retrieve the most relevant documents in a high-resource one. To address this, we propose fine-tuning neural rankers on pairs of language varieties, thereby exposing them to their linguistic similarities. We find that this approach improves the performance of the varieties upon which the models were directly trained, thereby regularising these models to generalise and perform better even on unseen language variety pairs. We also explore whether this approach can transfer across language families and observe mixed results that open doors for future research.
- Abstract(参考訳): グローバリゼーションと植民地化は、他の多くの言語を除いて、英語やフランス語のようなごく少数の言語でコミュニケーションをとるようになった。
このことは、オクシタンやシチリア語など、現在絶滅危惧されている多くの言語が生き残る可能性に大きな影響を与えている。
これらの言語は、文法や語彙といったいくつかの特徴を、フランス語やイタリア語など、他の高資源言語と共有することが多い。
それらは、様々な相互の知性を持つ言語多様体のグループにまとめることができる。
現在の検索システムは、これらの低リソースの品種の多くで訓練されていないため、検索ユーザは、代わりに高リソースの言語で自身のニーズを表現できる。
この問題は、ほとんどの情報コンテンツが高リソース言語で表現される場合、さらに複雑になり、低リソース言語での検索をさらに抑制する。
現状の検索システムは言語の種類によっては堅牢ではなく,検索効率に大きな影響を与えている。
したがって、これらのシステムは、ニューラルネットワークの能力を活用して、これらの品種の違いを橋渡しすることが望ましい。
これにより、ユーザは低リソースのバリエーションで自分のニーズを表現でき、高リソースのドキュメントで最も関連性の高いドキュメントを検索できる。
そこで本稿では,一対の言語変種に対する微調整型ニューラルローダを提案する。
提案手法は, モデルが直接訓練された品種の性能を向上し, これらのモデルを一般化するために規則化し, 未知の言語品種ペア上でも性能を向上する。
また、この手法が言語家族間で伝達可能かどうかについても検討し、今後の研究の扉を開く混合結果を観察する。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。