論文の概要: Lost in Translation: Large Language Models in Non-English Content
Analysis
- arxiv url: http://arxiv.org/abs/2306.07377v1
- Date: Mon, 12 Jun 2023 19:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:56:38.685918
- Title: Lost in Translation: Large Language Models in Non-English Content
Analysis
- Title(参考訳): lost in translation:非英語コンテンツ分析における大規模言語モデル
- Authors: Gabriel Nicholas and Aliya Bhatia
- Abstract要約: 大規模言語モデルは、オンラインで言語を分析し、生成するAIシステムを構築する上で、支配的なアプローチとなっている。
近年、研究者やテクノロジー企業は、大規模言語モデルの能力を英語以外の言語にも拡張しようと試みている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (e.g., Open AI's GPT-4, Meta's LLaMa,
Google's PaLM) have become the dominant approach for building AI systems to
analyze and generate language online. However, the automated systems that
increasingly mediate our interactions online -- such as chatbots, content
moderation systems, and search engines -- are primarily designed for and work
far more effectively in English than in the world's other 7,000 languages.
Recently, researchers and technology companies have attempted to extend the
capabilities of large language models into languages other than English by
building what are called multilingual language models.
In this paper, we explain how these multilingual language models work and
explore their capabilities and limits. Part I provides a simple technical
explanation of how large language models work, why there is a gap in available
data between English and other languages, and how multilingual language models
attempt to bridge that gap. Part II accounts for the challenges of doing
content analysis with large language models in general and multilingual
language models in particular. Part III offers recommendations for companies,
researchers, and policymakers to keep in mind when considering researching,
developing and deploying large and multilingual language models.
- Abstract(参考訳): 近年では、大規模な言語モデル(Open AIのGPT-4、MetaのLLaMa、GoogleのPaLMなど)が、オンライン言語の分析と生成を行うAIシステムを構築する上で、主要なアプローチとなっている。
しかし、チャットボット、コンテンツモデレーションシステム、検索エンジンなど、オンラインのインタラクションをますます仲介する自動化システムは、主に世界中の7,000言語よりも、英語でより効果的に動作するように設計されている。
近年、研究者やテクノロジー企業は、多言語言語モデルと呼ばれるものを構築して、英語以外の言語への大規模言語モデルの能力拡張を試みている。
本稿では,これらの多言語モデルがどのように機能するかを説明し,その能力と限界について考察する。
パートiでは、大規模な言語モデルがどのように機能するか、英語と他の言語の間に利用可能なデータにギャップがある理由、そして、そのギャップを橋渡ししようとする多言語モデルについて、簡単な技術的説明を提供している。
パートIIは、特に多言語言語モデルにおいて、大きな言語モデルでコンテンツ分析を行う際の課題について説明している。
パートIIIは、大規模かつ多言語言語モデルの研究、開発、展開を検討する際に、企業、研究者、政策立案者に留意するよう推奨する。
関連論文リスト
- Counterfactually Probing Language Identity in Multilingual Models [15.260518230218414]
多言語モデルの内部構造を探索するために, 対実的探索法AlterRepを用いる。
言語 X のテンプレートを考えると、言語 Y が言語 Y の単語の確率を体系的に増加させることが分かる。
論文 参考訳(メタデータ) (2023-10-29T01:21:36Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean
Language Models [6.907247943327277]
Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。
多言語韓国語モデルは、自然界において多言語的ではなく、特定の焦点を表わすものである。
論文 参考訳(メタデータ) (2023-06-04T04:04:04Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。