論文の概要: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through
Style-based Data Sampling
- arxiv url: http://arxiv.org/abs/2307.03550v1
- Date: Fri, 7 Jul 2023 12:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:41:17.998436
- Title: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through
Style-based Data Sampling
- Title(参考訳): DWReCO at CheckThat!
2023:スタイルベースデータサンプリングによる主観性検出の強化
- Authors: Ipek Baris Schlicht and Lynn Khellaf and Defne Altiok
- Abstract要約: 本稿では,CheckThat! Labにおける主観性検出タスクについて述べる。
我々は,ジャーナリストの視点に基づく主観的チェックリストから異なるスタイルのプロンプトを用いて,GPT-3モデルを用いた追加のトレーニング教材を作成した。
我々の英語、ドイツ語、トルコ語の実験は、異なる主観的スタイルがすべての言語で有効であることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission for the subjectivity detection task at
the CheckThat! Lab. To tackle class imbalances in the task, we have generated
additional training materials with GPT-3 models using prompts of different
styles from a subjectivity checklist based on journalistic perspective. We used
the extended training set to fine-tune language-specific transformer models.
Our experiments in English, German and Turkish demonstrate that different
subjective styles are effective across all languages. In addition, we observe
that the style-based oversampling is better than paraphrasing in Turkish and
English. Lastly, the GPT-3 models sometimes produce lacklustre results when
generating style-based texts in non-English languages.
- Abstract(参考訳): 本稿では,checkthatにおける主観性検出タスクの提案について述べる。
ラボ
課題におけるクラス不均衡に取り組むために,主観チェックリストから異なるスタイルのプロンプトを用いて,gpt-3モデルを用いた追加の学習教材を作成した。
拡張トレーニングセットを言語固有のトランスフォーマーモデルに適用した。
我々の英語、ドイツ語、トルコ語の実験は、異なる主観的スタイルがすべての言語で有効であることを示した。
さらに,スタイルに基づくオーバーサンプリングは,トルコ語や英語のパラフレーズよりも優れていることを観察する。
最後に、gpt-3モデルは、非英語の言語でスタイルベースのテキストを生成する際に、しばしば不十分な結果を生み出す。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Are Large Language Models Actually Good at Text Style Transfer? [0.17751300245073598]
テキストスタイル転送(TST)を用いた大規模言語モデル(LLM)の性能解析を行う。
TSTは、中核的な内容を保持しながら、テキストの言語スタイルを変更することを含む。
我々は、ゼロショットと少数ショットのプロンプトと、公開されているデータセットに対するパラメータ効率の微調整を用いて、事前訓練されたLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-09T18:45:41Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - The Pile: An 800GB Dataset of Diverse Text for Language Modeling [2.3336168869135605]
大規模言語モデルの訓練を目的とした,825 GiB の英語テキストコーパス Pile' を提示する。
パイルは22の多様な高品質のサブセットから作られており、その多くは学術的または専門的な情報源に由来する。
論文 参考訳(メタデータ) (2020-12-31T19:00:10Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。