論文の概要: Demonstrations Are All You Need: Advancing Offensive Content
Paraphrasing using In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.10707v1
- Date: Mon, 16 Oct 2023 16:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:38:11.237978
- Title: Demonstrations Are All You Need: Advancing Offensive Content
Paraphrasing using In-Context Learning
- Title(参考訳): デモは必要なもの - 文脈内学習による攻撃的コンテンツパラフレージングの促進
- Authors: Anirudh Som, Karan Sikka, Helen Gent, Ajay Divakaran, Andreas Kathol,
Dimitra Vergyri
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
ICLは、世代品質において教師付き手法に匹敵するが、人間の評価では25%、毒性では76%が質的に優れている。
- 参考スコア(独自算出の注目度): 11.547129568395103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Paraphrasing of offensive content is a better alternative to content removal
and helps improve civility in a communication environment. Supervised
paraphrasers; however, rely heavily on large quantities of labelled data to
help preserve meaning and intent. They also retain a large portion of the
offensiveness of the original content, which raises questions on their overall
usability. In this paper we aim to assist practitioners in developing usable
paraphrasers by exploring In-Context Learning (ICL) with large language models
(LLMs), i.e., using a limited number of input-label demonstration pairs to
guide the model in generating desired outputs for specific queries. Our study
focuses on key factors such as -- number and order of demonstrations, exclusion
of prompt instruction, and reduction in measured toxicity. We perform
principled evaluation on three datasets, including our proposed Context-Aware
Polite Paraphrase dataset, comprising of dialogue-style rude utterances, polite
paraphrases, and additional dialogue context. We evaluate our approach using
two closed source and one open source LLM. Our results reveal that ICL is
comparable to supervised methods in generation quality, while being
qualitatively better by 25% on human evaluation and attaining lower toxicity by
76%. Also, ICL-based paraphrasers only show a slight reduction in performance
even with just 10% training data.
- Abstract(参考訳): 攻撃的コンテンツのパラフレーズ化は、コンテンツ削除のより良い代替手段であり、コミュニケーション環境における市民性向上に役立つ。
しかし、意味や意図を保存するための大量のラベル付きデータに大きく依存している。
また、オリジナルコンテンツの不快感の大部分を保持しており、ユーザビリティに関する疑問を提起している。
本稿では,大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)を探索し,特定のクエリに対して所望のアウトプットを生成する上で,入力ラベルのデモペアを限定的に使用することにより,実践者を支援することを目的とする。
本研究は, 実演の回数と順序, 即席指導の排除, 測定毒性の低減など, 重要な要因に焦点を当てた。
提案した文脈対応ポリトパラフレーズデータセットを含む3つのデータセットに対して,対話スタイルの失礼な発話,丁寧な言い回し,追加の対話コンテキストを含む基本的評価を行う。
2つのクローズドソースと1つのオープンソースLLMを用いてアプローチを評価する。
以上の結果から,ICLは品質管理手法と同等であり,人体評価では25%,毒性では76%と質的に優れていた。
また、ICLベースのパラフレーズは10%のトレーニングデータでもわずかに性能が低下している。
関連論文リスト
- Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - User-Aware Multilingual Abusive Content Detection in Social Media [1.5574374852568207]
本研究は、複数の低リソースのIndic言語において、乱用コンテンツ検出のための新しい方法を提供することに焦点をあてる。
本研究は,投稿が乱暴なコメントを惹きつける傾向と,ユーザ履歴や社会的文脈などの特徴が,乱暴なコンテンツの検出に大いに役立っていることを示唆する。
論文 参考訳(メタデータ) (2024-10-26T05:44:24Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - ThatiAR: Subjectivity Detection in Arabic News Sentences [10.334164786614696]
本研究では,アラビア語における主観性検出のための最初の大規模データセットを提案する。
3.6K の注釈付き文と GPT-4o に基づく説明で構成されている。
データセット、アノテーションプロセス、および広範なベンチマーク結果を詳細に分析する。
論文 参考訳(メタデータ) (2024-06-08T19:24:17Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。