論文の概要: Performance of Data Augmentation Methods for Brazilian Portuguese Text
Classification
- arxiv url: http://arxiv.org/abs/2304.02785v1
- Date: Wed, 5 Apr 2023 23:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:52:19.007325
- Title: Performance of Data Augmentation Methods for Brazilian Portuguese Text
Classification
- Title(参考訳): ブラジルポルトガル語テキスト分類におけるデータ拡張手法の性能
- Authors: Marcellus Amadeus and Paulo Branco
- Abstract要約: 本研究では,ブラジルのポルトガル語コーパスを用いたテキスト分類問題に適用した既存のデータ拡張手法を利用して,その性能を解析した。
分析の結果,これらの手法を用いることでいくつかの改善が見られたが,言語バイアスや非英語テキストデータ不足のさらなる活用が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving machine learning performance while increasing model generalization
has been a constantly pursued goal by AI researchers. Data augmentation
techniques are often used towards achieving this target, and most of its
evaluation is made using English corpora. In this work, we took advantage of
different existing data augmentation methods to analyze their performances
applied to text classification problems using Brazilian Portuguese corpora. As
a result, our analysis shows some putative improvements in using some of these
techniques; however, it also suggests further exploitation of language bias and
non-English text data scarcity.
- Abstract(参考訳): 機械学習のパフォーマンス向上とモデル一般化の促進は、ai研究者が常に追求している目標である。
データ拡張技術はしばしばこの目標を達成するために使われ、その評価のほとんどは英語コーパスを用いて行われる。
本研究では,ブラジルのポルトガル語コーポラを用いたテキスト分類問題に適用した性能分析に,既存のデータ拡張手法を生かした。
以上の結果から,これらの手法の活用において,言語バイアスや非英語テキストデータ不足のさらなる活用が示唆された。
関連論文リスト
- Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings [1.387446067205368]
低リソースデータセットを用いたマルチラベル感情分類タスクにおける異なるデータ拡張手法の有効性を評価した。
Back Translationはオートエンコーダベースのアプローチよりも優れており、トレーニングインスタンス毎に複数の例を生成することで、さらなるパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2024-06-07T18:13:27Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - American Sign Language Video to Text Translation [0.0]
テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
論文 参考訳(メタデータ) (2024-02-11T17:46:33Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Robust Sentiment Analysis for Low Resource languages Using Data
Augmentation Approaches: A Case Study in Marathi [0.9553673944187253]
感情分析は、テキストデータに表される感情を理解する上で重要な役割を果たす。
低リソース言語における感情分析の研究努力には大きなギャップがある。
本稿では,低リソースのIndic言語であるMarathiに対するデータ拡張アプローチについて概説する。
論文 参考訳(メタデータ) (2023-10-01T17:09:31Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。