論文の概要: To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2310.08078v1
- Date: Thu, 12 Oct 2023 06:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:42:48.637040
- Title: To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer
- Title(参考訳): To token or not to token: A Comparison Study of Text Representations for Cross-Lingual Transfer (特集:英語)
- Authors: Md Mushfiqur Rahman, Fardin Ahsan Sakib, Fahim Faisal, Antonios
Anastasopoulos
- Abstract要約: ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
- 参考スコア(独自算出の注目度): 23.777874316083984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Choosing an appropriate tokenization scheme is often a bottleneck in
low-resource cross-lingual transfer. To understand the downstream implications
of text representation choices, we perform a comparative analysis on language
models having diverse text representation modalities including 2
segmentation-based models (\texttt{BERT}, \texttt{mBERT}), 1 image-based model
(\texttt{PIXEL}), and 1 character-level model (\texttt{CANINE}). First, we
propose a scoring Language Quotient (LQ) metric capable of providing a weighted
representation of both zero-shot and few-shot evaluation combined. Utilizing
this metric, we perform experiments comprising 19 source languages and 133
target languages on three tasks (POS tagging, Dependency parsing, and NER). Our
analysis reveals that image-based models excel in cross-lingual transfer when
languages are closely related and share visually similar scripts. However, for
tasks biased toward word meaning (POS, NER), segmentation-based models prove to
be superior. Furthermore, in dependency parsing tasks where word relationships
play a crucial role, models with their character-level focus, outperform
others. Finally, we propose a recommendation scheme based on our findings to
guide model selection according to task and language requirements.
- Abstract(参考訳): 適切なトークン化スキームを選択することは、低リソースの言語間転送においてしばしばボトルネックとなる。
テキスト表現選択の下流的な意味を理解するために、2つのセグメンテーションベースモデル (\texttt{bert}, \texttt{mbert}), 1つのイメージベースモデル (\texttt{pixel}), 1つの文字レベルモデル (\texttt{canine}) を含む多様なテキスト表現モダリティを持つ言語モデルの比較分析を行う。
まず、ゼロショットと少数ショットの両方の評価を重み付けした表現を提供するためのスコアリング言語量(LQ)メトリクスを提案する。
この指標を用いることで、3つのタスク(POSタグ付け、依存性解析、NER)で19のソース言語と133のターゲット言語からなる実験を行う。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
しかし、単語の意味(POS, NER)に偏ったタスクの場合、セグメンテーションに基づくモデルの方が優れていることが判明した。
さらに、単語関係が重要な役割を果たす依存関係解析タスクでは、文字レベルでのモデルが他よりも優れています。
最後に,課題や言語要件に応じたモデル選択を指導するための提案手法を提案する。
関連論文リスト
- Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.0]
本稿では,エンド・ツー・エンドのニューラル・コアス・リゾリューションシステムについて述べる。
まず、モノリンガルとクロスリンガルのバリエーションを含む強力なベースラインモデルを構築します。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers [3.116035935327534]
我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
論文 参考訳(メタデータ) (2023-04-27T18:19:24Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。