論文の概要: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through
Style-based Data Sampling
- arxiv url: http://arxiv.org/abs/2307.03550v1
- Date: Fri, 7 Jul 2023 12:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:41:17.998436
- Title: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through
Style-based Data Sampling
- Title(参考訳): DWReCO at CheckThat!
2023:スタイルベースデータサンプリングによる主観性検出の強化
- Authors: Ipek Baris Schlicht and Lynn Khellaf and Defne Altiok
- Abstract要約: 本稿では,CheckThat! Labにおける主観性検出タスクについて述べる。
我々は,ジャーナリストの視点に基づく主観的チェックリストから異なるスタイルのプロンプトを用いて,GPT-3モデルを用いた追加のトレーニング教材を作成した。
我々の英語、ドイツ語、トルコ語の実験は、異なる主観的スタイルがすべての言語で有効であることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission for the subjectivity detection task at
the CheckThat! Lab. To tackle class imbalances in the task, we have generated
additional training materials with GPT-3 models using prompts of different
styles from a subjectivity checklist based on journalistic perspective. We used
the extended training set to fine-tune language-specific transformer models.
Our experiments in English, German and Turkish demonstrate that different
subjective styles are effective across all languages. In addition, we observe
that the style-based oversampling is better than paraphrasing in Turkish and
English. Lastly, the GPT-3 models sometimes produce lacklustre results when
generating style-based texts in non-English languages.
- Abstract(参考訳): 本稿では,checkthatにおける主観性検出タスクの提案について述べる。
ラボ
課題におけるクラス不均衡に取り組むために,主観チェックリストから異なるスタイルのプロンプトを用いて,gpt-3モデルを用いた追加の学習教材を作成した。
拡張トレーニングセットを言語固有のトランスフォーマーモデルに適用した。
我々の英語、ドイツ語、トルコ語の実験は、異なる主観的スタイルがすべての言語で有効であることを示した。
さらに,スタイルに基づくオーバーサンプリングは,トルコ語や英語のパラフレーズよりも優れていることを観察する。
最後に、gpt-3モデルは、非英語の言語でスタイルベースのテキストを生成する際に、しばしば不十分な結果を生み出す。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task
Strategies for Genre and Framing Detection in Online News [10.435874177179764]
本稿では,日立チームによるSemEval-2023タスク3への参加について解説する。
本研究では,事前学習した言語モデルの学習のための多言語・多タスク戦略について検討した。
結果からアンサンブルモデルを構築し,イタリアおよびロシアのジャンル分類サブタスクにおいて,マクロ平均F1スコアを達成した。
論文 参考訳(メタデータ) (2023-03-03T09:12:55Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - The Pile: An 800GB Dataset of Diverse Text for Language Modeling [2.3336168869135605]
大規模言語モデルの訓練を目的とした,825 GiB の英語テキストコーパス Pile' を提示する。
パイルは22の多様な高品質のサブセットから作られており、その多くは学術的または専門的な情報源に由来する。
論文 参考訳(メタデータ) (2020-12-31T19:00:10Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。