論文の概要: Considerations for Multilingual Wikipedia Research
- arxiv url: http://arxiv.org/abs/2204.02483v1
- Date: Tue, 5 Apr 2022 20:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 02:54:38.540372
- Title: Considerations for Multilingual Wikipedia Research
- Title(参考訳): 多言語ウィキペディア研究への考察
- Authors: Isaac Johnson and Emily Lescak
- Abstract要約: ウィキペディアの非英語版は、データセットやモデルにさらに多くの言語版が組み込まれている。
本論文は,ウィキペディアの異なる言語版間でどのような違いが生じるのか,研究者が理解するための背景を提供することを目的とする。
- 参考スコア(独自算出の注目度): 1.5736899098702972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: English Wikipedia has long been an important data source for much research
and natural language machine learning modeling. The growth of non-English
language editions of Wikipedia, greater computational resources, and calls for
equity in the performance of language and multimodal models have led to the
inclusion of many more language editions of Wikipedia in datasets and models.
Building better multilingual and multimodal models requires more than just
access to expanded datasets; it also requires a better understanding of what is
in the data and how this content was generated. This paper seeks to provide
some background to help researchers think about what differences might arise
between different language editions of Wikipedia and how that might affect
their models. It details three major ways in which content differences between
language editions arise (local context, community and governance, and
technology) and recommendations for good practices when using multilingual and
multimodal data for research and modeling.
- Abstract(参考訳): 英語のwikipediaは長い間、多くの研究と自然言語機械学習モデリングの重要なデータソースだった。
ウィキペディアの英語以外の版の増加、より大きな計算資源、言語とマルチモーダルモデルのパフォーマンスにおける公平性の要求により、ウィキペディアのより多くの言語版がデータセットやモデルに含まれるようになった。
より良い多言語モデルとマルチモーダルモデルを構築するには、拡張データセットへのアクセスだけでなく、データに何があるのか、どのようにコンテンツが生成されたのかをよりよく理解する必要がある。
この論文は、ウィキペディアの異なる言語版と、それがモデルにどのように影響するかを研究者が考えるのに役立つ背景を提供しようとしている。
言語版間のコンテンツの違い(ローカルコンテキスト、コミュニティとガバナンス、技術)が生じる3つの主要な方法と、研究とモデリングに多言語およびマルチモーダルデータを使用する際の良いプラクティスの推奨について詳述する。
関連論文リスト
- Towards Better Monolingual Japanese Retrievers with Multi-Vector Models [0.0]
日本語では、最も優れたディープラーニングに基づく検索手法は多言語密着型埋め込みに依存している。
マルチ言語よりも2桁少ないデータで訓練されたマルチベクトルレトリバーのファミリーであるJaColBERTを紹介する。
論文 参考訳(メタデータ) (2023-12-26T18:07:05Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Lost in Translation: Large Language Models in Non-English Content
Analysis [0.0]
大規模言語モデルは、オンラインで言語を分析し、生成するAIシステムを構築する上で、支配的なアプローチとなっている。
近年、研究者やテクノロジー企業は、大規模言語モデルの能力を英語以外の言語にも拡張しようと試みている。
論文 参考訳(メタデータ) (2023-06-12T19:10:47Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Are pre-trained text representations useful for multilingual and
multi-dimensional language proficiency modeling? [6.294759639481189]
本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。
提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。
論文 参考訳(メタデータ) (2021-02-25T16:23:52Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。