Fugu-MT 論文翻訳(概要): Improving Indonesian Text Classification Using Multilingual Language Model

論文の概要: Improving Indonesian Text Classification Using Multilingual Language Model

arxiv url: http://arxiv.org/abs/2009.05713v1
Date: Sat, 12 Sep 2020 03:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 07:39:58.487435
Title: Improving Indonesian Text Classification Using Multilingual Language Model
Title（参考訳）: 多言語モデルを用いたインドネシア語テキスト分類の改善
Authors: Ilham Firdausi Putra (1), Ayu Purwarianti (1 and 2) ((1) Institut Teknologi Bandung, (2) U-CoE AI-VLB)
Abstract要約: 本稿では,インドネシア語テキスト分類モデルの構築における英語とインドネシア語データの組み合わせの効果について検討する。実験の結果,英語データの追加,特にインドネシア語のデータの量が少ない場合には,性能が向上することがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compared to English, the amount of labeled data for Indonesian text classification tasks is very small. Recently developed multilingual language models have shown its ability to create multilingual representations effectively. This paper investigates the effect of combining English and Indonesian data on building Indonesian text classification (e.g., sentiment analysis and hate speech) using multilingual language models. Using the feature-based approach, we observe its performance on various data sizes and total added English data. The experiment showed that the addition of English data, especially if the amount of Indonesian data is small, improves performance. Using the fine-tuning approach, we further showed its effectiveness in utilizing the English language to build Indonesian text classification models.
Abstract（参考訳）: インドネシア語テキスト分類タスクのラベル付きデータの量は英語と比較して非常に少ない。最近開発された多言語言語モデルは、多言語表現を効果的に作成する能力を示している。本稿では,多言語モデルを用いたインドネシア語テキストの分類(感情分析やヘイトスピーチなど)における英語とインドネシア語データの組み合わせの効果について検討する。特徴ベースアプローチを用いて,様々なデータサイズと総英語データに対する性能を観察した。この実験は、特にインドネシアのデータ量が小さい場合、英語データの追加によりパフォーマンスが向上することを示した。さらに,微調整手法を用いて,インドネシア語テキスト分類モデルの構築に英語の利用の有効性を示した。

関連論文リスト

Assessing the Role of Data Quality in Training Bilingual Language Models [17.603371705571107]
データ量だけでなく不平等なデータ品質も、バイリンガル設定のパフォーマンス劣化の主要な要因であることを示す。本稿では,高品質な英語データのみを用いて,高品質なバイリンガル学習データを選択するための簡易かつ効果的なデータフィルタリング手法を提案する。
論文参考訳（メタデータ） (2025-06-15T21:08:51Z)
Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance [0.0]
Hindi- English bi-lingual LLM textbfMantra-14B with 3% improve in benchmark scores over both languages。我々は、Qwen-2.5-14B-InstructやPhi-4といったチューニングモデルに、英語とヒンディー語の両方のパフォーマンスを改善するよう指示した。以上の結果から,文化的・局所的な情報を用いた微調整は,計算オーバーヘッドを伴わずに性能ギャップを埋めることが可能であることが示唆された。
論文参考訳（メタデータ） (2025-04-13T23:10:13Z)
Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。単言語モデルと比較して,多言語モデルの性能を評価する。
論文参考訳（メタデータ） (2024-06-25T15:02:32Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文参考訳（メタデータ） (2024-04-09T09:04:30Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian [0.0]
インドネシアでは、MSVDデータセットの英語字幕をインドネシア語に翻訳することで、最初のパブリックなインドネシア語ビデオテキストデータセットを導入する。 3つのタスクに基づいて,英語ビデオテキストデータセットのために開発されたニューラルネットワークモデルを評価する。インドネシアのデータセット上で,英語に制限された抽出器と微調整モデルを活用することによって,言語間移動学習手法を適用した。
論文参考訳（メタデータ） (2023-06-20T07:19:36Z)
Leveraging Language Identification to Enhance Code-Mixed Text Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文参考訳（メタデータ） (2023-06-08T06:43:10Z)
Improving Polish to English Neural Machine Translation with Transfer Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。 OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-06-01T13:34:21Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-06-07T09:53:02Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。