論文の概要: Enhancing Portuguese Variety Identification with Cross-Domain Approaches
- arxiv url: http://arxiv.org/abs/2502.14394v1
- Date: Thu, 20 Feb 2025 09:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:08.334535
- Title: Enhancing Portuguese Variety Identification with Cross-Domain Approaches
- Title(参考訳): クロスドメインアプローチによるポルトガル品種識別の強化
- Authors: Hugo Sousa, Rúben Almeida, Purificação Silvano, Inês Cantante, Ricardo Campos, Alípio Jorge,
- Abstract要約: ヨーロッパとブラジルのポルトガル語を識別するクロスドメイン言語バラエティ識別子(LVI)を開発した。
この研究はポルトガルの2つの品種に焦点を当てているが、我々の貢献は他の品種や言語にも拡張できる。
- 参考スコア(独自算出の注目度): 2.31011809034817
- License:
- Abstract: Recent advances in natural language processing have raised expectations for generative models to produce coherent text across diverse language varieties. In the particular case of the Portuguese language, the predominance of Brazilian Portuguese corpora online introduces linguistic biases in these models, limiting their applicability outside of Brazil. To address this gap and promote the creation of European Portuguese resources, we developed a cross-domain language variety identifier (LVI) to discriminate between European and Brazilian Portuguese. Motivated by the findings of our literature review, we compiled the PtBrVarId corpus, a cross-domain LVI dataset, and study the effectiveness of transformer-based LVI classifiers for cross-domain scenarios. Although this research focuses on two Portuguese varieties, our contribution can be extended to other varieties and languages. We open source the code, corpus, and models to foster further research in this task.
- Abstract(参考訳): 近年の自然言語処理の進歩は、多言語多種多様なコヒーレントテキストを生成するための生成モデルへの期待を高めている。
ポルトガル語の特定の場合において、ブラジルポルトガル語のコーポラのオンラインでの優位性は、これらのモデルに言語バイアスを導入し、ブラジル以外での適用性を制限している。
このギャップに対処し、欧州ポルトガル資源の創出を促進するため、ヨーロッパとブラジルのポルトガル語を区別するクロスドメイン言語多様性識別子(LVI)を開発した。
文献レビューの結果に触発されて,クロスドメインLVIデータセットであるPtBrVarId corpusをコンパイルし,トランスフォーマーを用いたLVI分類器のクロスドメインシナリオへの適用について検討した。
この研究はポルトガルの2つの品種に焦点を当てているが、我々の貢献は他の品種や言語にも拡張できる。
私たちは、このタスクのさらなる研究を促進するために、コード、コーパス、モデルをオープンソースにしています。
関連論文リスト
- Tradutor: Building a Variety Specific Translation Model [3.976102757693942]
ポルトガル語に特化された最初のオープンソース翻訳モデルを紹介します。
私たちの最良のモデルは、既存のポルトガル語のオープンソース翻訳システムを超えています。
データセット、モデル、コードを公開することにより、さらなる研究を支援し、奨励することを目指しています。
論文 参考訳(メタデータ) (2025-02-20T09:20:59Z) - From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。
2つの変種間での資源の入手にはかなりの不均衡がある。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-14T10:58:48Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese [1.2779732438508473]
我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-04-08T09:22:41Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Language Variety Identification with True Labels [7.9815074811220175]
本稿では,言語多様性を識別する最初の人間アノテーション付き多言語データセットであるDSL True Labels (-TL)を提案する。
DSL-TLは、ポルトガル語で12,900件、ポルトガル語で12,900件、スペイン語でアルゼンチン語でスペイン語とカスティーリャ語でスペイン語、英語でアメリカ英語とイギリス英語に分けられている。
我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。
論文 参考訳(メタデータ) (2023-03-02T18:51:58Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Transformers and Transfer Learning for Improving Portuguese Semantic
Role Labeling [2.9005223064604078]
低リソース言語、特にポルトガル語の場合、現在利用可能なSRLモデルは、トレーニングデータの不足によって妨げられます。
トレーニング済みのBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-01-04T19:56:01Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。