論文の概要: Pay Attention to Your Tone: Introducing a New Dataset for Polite
Language Rewrite
- arxiv url: http://arxiv.org/abs/2212.10190v1
- Date: Tue, 20 Dec 2022 12:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:30:58.438039
- Title: Pay Attention to Your Tone: Introducing a New Dataset for Polite
Language Rewrite
- Title(参考訳): 注意を払う:ポリト言語の書き直しのための新しいデータセットの導入
- Authors: Xun Wang, Tao Ge, Allen Mao, Yuki Li, Furu Wei, Si-Qing Chen
- Abstract要約: textscPoliteRewrite -- 丁寧な言語書き直しのためのデータセット。
テンクの丁寧な文は、GPT-3.5と人間によって注釈付きで書き直される。
100K 質の高い丁寧な文を GPT-3.5 で書き直した。
- 参考スコア(独自算出の注目度): 81.83910117028464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textsc{PoliteRewrite} -- a dataset for polite language rewrite
which is a novel sentence rewrite task. Compared with previous text style
transfer tasks that can be mostly addressed by slight token- or phrase-level
edits, polite language rewrite requires deep understanding and extensive
sentence-level edits over an offensive and impolite sentence to deliver the
same message euphemistically and politely, which is more challenging -- not
only for NLP models but also for human annotators to rewrite with effort. To
alleviate the human effort for efficient annotation, we first propose a novel
annotation paradigm by a collaboration of human annotators and GPT-3.5 to
annotate \textsc{PoliteRewrite}. The released dataset has 10K polite sentence
rewrites annotated collaboratively by GPT-3.5 and human, which can be used as
gold standard for training, validation and test; and 100K high-quality polite
sentence rewrites by GPT-3.5 without human review. We wish this work (The
dataset (10K+100K) will be released soon) could contribute to the research on
more challenging sentence rewrite, and provoke more thought in future on
resource annotation paradigm with the help of the large-scaled pretrained
models.
- Abstract(参考訳): 我々は,新しい文書き換えタスクである丁寧な言語書き換えのためのデータセットである \textsc{politerewrite} を紹介する。
従来のテキストスタイルの転送タスクは、ほとんどトークンやフレーズレベルの編集で対処できるが、丁寧な言語書き直しでは、攻撃的で不合理な文に対する深い理解と広範囲な文レベルの編集が必要であり、同じメッセージを優雅かつ丁寧に配信する。
効率的なアノテーションのための人的努力を軽減するため,まず,人間のアノテーションとGPT-3.5の協調による新しいアノテーションパラダイムを提案する。
リリースされたデータセットには、GPT-3.5とヒトが共同で注釈付けした10Kの丁寧な文書き直しがあり、トレーニング、検証、テストのゴールドスタンダードとして使用できる。
この研究(データセット(10K+100K)が、より難しい文の書き直しの研究に寄与し、大規模事前学習モデルの助けを借りて、リソースアノテーションのパラダイムについてより深く考えることを願っている。
関連論文リスト
- Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting [11.306772273707253]
大規模言語モデル(LLM)は、ストーリーテリングや電子メール生成といった創造的なタスクにおいて、印象的な機能を示している。
我々は,命令チューニングと強化学習のための新しい戦略を開発し,文間書き直し作業のためのLLMの整合性を向上する。
OpenRewriteEvalは、自然言語命令で表現される多種多様な書き換えタイプをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2023-05-25T03:26:26Z) - UPTON: Preventing Authorship Leakage from Public Text Release via Data
Poisoning [17.956089294338984]
トレーニングサンプルにおける著者の特徴を弱めるためにブラックボックスデータ中毒法を利用した新しいソリューションであるUPTONを提案する。
UPTONがAAモデルの精度を非現実的なレベルに下げる実験的な検証法を提案する。
UPTONは、著者の利用可能なクリーンな文章に基づいてすでに訓練されているAAモデルに有効である。
論文 参考訳(メタデータ) (2022-11-17T17:49:57Z) - Read, Revise, Repeat: A System Demonstration for Human-in-the-loop
Iterative Text Revision [11.495407637511878]
本稿では,リピート・リバイス・リピート・リピート・リピート (R3) によるヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リフレクションシステムを提案する。
R3は、モデル生成のリビジョンとユーザからのフィードバックを読み、文書を改訂し、人間と機械の相互作用を繰り返すことで、人間の最小限の努力で高品質なテキストリビジョンを実現することを目的としている。
論文 参考訳(メタデータ) (2022-04-07T18:33:10Z) - Preventing Author Profiling through Zero-Shot Multilingual
Back-Translation [15.871735427038386]
多言語バックトランスレーションによる著者プロファイリングのリスクを効果的に低減する,シンプルなゼロショット方式を提案する。
自動評価と人的評価の両方の結果から,本手法が全体の性能を最高のものにすることが示された。
私たちは、ダウンストリームタスクでオリジナルのユーティリティの95%を保ちながら、性別と人種の敵対的な予測を最大22%まで下げることができます。
論文 参考訳(メタデータ) (2021-09-19T14:36:22Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。