論文の概要: Low-Resource Clickbait Spoiling for Indonesian via Question Answering
- arxiv url: http://arxiv.org/abs/2310.08085v1
- Date: Thu, 12 Oct 2023 07:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:30:11.609637
- Title: Low-Resource Clickbait Spoiling for Indonesian via Question Answering
- Title(参考訳): インドネシアの低リソースクリックベイトが質問に答える
- Authors: Ni Putu Intan Maharani, Ayu Purwarianti, Alham Fikri Aji
- Abstract要約: クリックベイト腐敗は、クリックベイト投稿によって引き起こされる好奇心を満たすための短いテキストを生成することを目的としている。
新しく導入されたタスクなので、データセットは今のところ英語でしか利用できない。
私たちのコントリビューションには、インドネシアにおける手作業によるクリックベイト腐敗コーパスの構築が含まれています。
- 参考スコア(独自算出の注目度): 14.670767459273307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clickbait spoiling aims to generate a short text to satisfy the curiosity
induced by a clickbait post. As it is a newly introduced task, the dataset is
only available in English so far. Our contributions include the construction of
manually labeled clickbait spoiling corpus in Indonesian and an evaluation on
using cross-lingual zero-shot question answering-based models to tackle
clikcbait spoiling for low-resource language like Indonesian. We utilize
selection of multilingual language models. The experimental results suggest
that XLM-RoBERTa (large) model outperforms other models for phrase and passage
spoilers, meanwhile, mDeBERTa (base) model outperforms other models for
multipart spoilers.
- Abstract(参考訳): clickbait spoilingは、clickbait投稿によって引き起こされる好奇心を満たすために短いテキストを生成することを目的としている。
新しく導入されたタスクであるため、データセットは今のところ英語でのみ利用可能だ。
インドネシアにおけるclickbaitスポイリングコーパスの構築や,インドネシアのような低リソース言語に対するclikcbaitスポイリングに取り組むために,クロスリンガルなゼロショット質問応答モデルを用いた評価などを行った。
我々は多言語モデルの選択を利用する。
実験結果から,XLM-RoBERTa(大規模)モデルはフレーズスポイラーやパススポイラーの他モデルよりも優れ,mDeBERTa(ベース)モデルはマルチパートスポイラーの他モデルより優れていることが示唆された。
関連論文リスト
- Generating clickbait spoilers with an ensemble of large language models [2.07180164747172]
クリックベイトスポイラー生成のための微調整された大言語モデルのアンサンブルを提案する。
提案手法はフレーズスポイラーや文節スポイラーに限らず, テキストの非連続部分を参照するマルチパートスポイラーを生成することができる。
実験により,提案したアンサンブルモデルがBLEU, METEOR, BERTScoreの基準値よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-05-25T15:49:08Z) - mALBERT: Is a Compact Multilingual BERT Model Still Worth It? [5.2116647104135305]
ALBERTのようなコンパクトモデルなど,これらのPLMよりも頑丈なモデルに焦点をあてる。
PLMは、SpokenやNatural LanguageUnderstandingといった自然言語処理タスク、分類、質問応答タスクにおいて、大きなブレークスルーを可能にします。
これらの事実を踏まえ、ウィキペディアデータを用いて事前訓練された多言語コンパクトALBERTモデルの最初のバージョンを無償で提供する。
論文 参考訳(メタデータ) (2024-03-27T08:25:28Z) - Unsupervised Lexical Simplification with Context Augmentation [55.318201742039]
対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、TSAR-2022共有タスクにおいて、英語、ポルトガル語、スペイン語で実験を行い、我々のモデルは、すべての言語で、他の教師なしシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T05:48:05Z) - Clickbait Classification and Spoiling Using Natural Language Processing [2.66512000865131]
クリックベイトを3つのタイプのうちの1つ(タスク1)に分類し、クリックベイトを台無しにする(タスク2)という2つのタスクに取り組む。
タスク1では、最終スポイラー型を決定するために2つのバイナリ分類器を提案する。
タスク2では,質問応答モデルを用いてスポイラーのテキストのスパンを識別し,大言語モデル(LLM)を用いてスポイラーを生成する。
論文 参考訳(メタデータ) (2023-06-16T01:45:57Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。