論文の概要: FreSaDa: A French Satire Data Set for Cross-Domain Satire Detection
- arxiv url: http://arxiv.org/abs/2104.04828v1
- Date: Sat, 10 Apr 2021 18:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:38:52.726827
- Title: FreSaDa: A French Satire Data Set for Cross-Domain Satire Detection
- Title(参考訳): FreSaDa: クロスドメインなSatire検出のためのフランスのSatireデータセット
- Authors: Radu Tudor Ionescu, Adrian Gabriel Chifu
- Abstract要約: FreSaDaは、ニュースドメインから11,570の記事で構成されるフランスのサティアデータセットです。
我々は新しいデータセットのベースラインとして2つの分類法を用いる。
- 参考スコア(独自算出の注目度): 18.059360820527687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce FreSaDa, a French Satire Data Set, which is
composed of 11,570 articles from the news domain. In order to avoid reporting
unreasonably high accuracy rates due to the learning of characteristics
specific to publication sources, we divided our samples into training,
validation and test, such that the training publication sources are distinct
from the validation and test publication sources. This gives rise to a
cross-domain (cross-source) satire detection task. We employ two classification
methods as baselines for our new data set, one based on low-level features
(character n-grams) and one based on high-level features (average of CamemBERT
word embeddings). As an additional contribution, we present an unsupervised
domain adaptation method based on regarding the pairwise similarities (given by
the dot product) between the training samples and the validation samples as
features. By including these domain-specific features, we attain significant
improvements for both character n-grams and CamemBERT embeddings.
- Abstract(参考訳): 本稿では,ニュースドメインの11,570記事からなるフランス語Satire Data SetであるFreSaDaを紹介する。
本研究は,出版元固有の特徴の学習による不当に高い精度の報告を避けるため,本研究のサンプルを,学習・検証・試験に分割し,評価・試験用出版元と区別した。
これにより、クロスドメイン(クロスソース)の風刺検出タスクが発生する。
我々は,新しいデータセットのベースラインとして,低レベル特徴(文字n-gram)に基づく分類法と,高レベル特徴(CamemBERT単語埋め込みの平均値)に基づく分類法を用いる。
追加の貢献として,訓練試料と検証試料とのペアワイズ類似性(ドット積による)を特徴として,教師なしドメイン適応法を提案する。
これらのドメイン固有の機能を含めることで、キャラクタn-gramとCamemBERTの埋め込みの両方で大幅に改善されました。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Boosting Few-Shot Text Classification via Distribution Estimation [38.99459686893034]
そこで本稿では,未ラベルの問合せサンプルを用いて,新しいクラスの分布を推定する,単純かつ効果的な2つの手法を提案する。
具体的には、まずクラスまたはサンプルをガウス分布に従って仮定し、元のサポートセットと最も近いクエリサンプルを使用する。
そして,推定分布から抽出したラベル付きサンプルを増量し,分類モデルの訓練に十分な監督力を与える。
論文 参考訳(メタデータ) (2023-03-26T05:58:39Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Inductive Unsupervised Domain Adaptation for Few-Shot Classification via
Clustering [16.39667909141402]
ショットの分類は、多様なドメインに適応する必要がある場合、苦労する傾向があります。
本稿では、ClusteringによるFew-shot分類のためのドメイン適応性能を改善するためのフレームワークDaFeCを紹介する。
提案手法は, 絶対利得(分類精度)が4.95%, 9.55%, 3.99%, 11.62%であった。
論文 参考訳(メタデータ) (2020-06-23T08:17:48Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。