論文の概要: Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.10707v2
- Date: Sun, 9 Jun 2024 18:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:57:42.914336
- Title: Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning
- Title(参考訳): デモは必要なもの - 文脈内学習による攻撃的コンテンツパラフレージングの促進
- Authors: Anirudh Som, Karan Sikka, Helen Gent, Ajay Divakaran, Andreas Kathol, Dimitra Vergyri,
- Abstract要約: 監督されたパラフレーズは、意味と意図を維持するために大量のラベル付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
- 参考スコア(独自算出の注目度): 10.897468059705238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Paraphrasing of offensive content is a better alternative to content removal and helps improve civility in a communication environment. Supervised paraphrasers; however, rely heavily on large quantities of labelled data to help preserve meaning and intent. They also often retain a large portion of the offensiveness of the original content, which raises questions on their overall usability. In this paper we aim to assist practitioners in developing usable paraphrasers by exploring In-Context Learning (ICL) with large language models (LLMs), i.e., using a limited number of input-label demonstration pairs to guide the model in generating desired outputs for specific queries. Our study focuses on key factors such as - number and order of demonstrations, exclusion of prompt instruction, and reduction in measured toxicity. We perform principled evaluation on three datasets, including our proposed Context-Aware Polite Paraphrase (CAPP) dataset, comprising of dialogue-style rude utterances, polite paraphrases, and additional dialogue context. We evaluate our approach using four closed source and one open source LLM. Our results reveal that ICL is comparable to supervised methods in generation quality, while being qualitatively better by 25% on human evaluation and attaining lower toxicity by 76%. Also, ICL-based paraphrasers only show a slight reduction in performance even with just 10% training data.
- Abstract(参考訳): 攻撃的コンテンツのパラフレーズ化は、コンテンツ削除のより良い代替手段であり、コミュニケーション環境における市民性向上に役立つ。
しかし、意味や意図を保存するための大量のラベル付きデータに大きく依存している。
また、元のコンテンツに対する不快感の大部分を保ち、ユーザビリティに関する疑問を提起することもある。
本稿では,大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)を探索し,特定のクエリに対して所望のアウトプットを生成する上で,入力ラベルのデモペアを限定的に使用することにより,実践者が有用なパラフレーズの開発を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
提案した文脈対応ポリトパラフレーズ(CAPP)データセットは,対話スタイルの失礼な発話,丁寧な言い回し,追加の対話コンテキストから構成される。
我々は4つのクローズドソースと1つのオープンソースLLMを用いてアプローチを評価した。
以上の結果から,ICLは品質管理手法と同等であり,人体評価では25%,毒性では76%と質的に優れていた。
また、ICLベースのパラフレーズは10%のトレーニングデータでもわずかに性能を低下させるだけである。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - User-Aware Multilingual Abusive Content Detection in Social Media [1.5574374852568207]
本研究は、複数の低リソースのIndic言語において、乱用コンテンツ検出のための新しい方法を提供することに焦点をあてる。
本研究は,投稿が乱暴なコメントを惹きつける傾向と,ユーザ履歴や社会的文脈などの特徴が,乱暴なコンテンツの検出に大いに役立っていることを示唆する。
論文 参考訳(メタデータ) (2024-10-26T05:44:24Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - ThatiAR: Subjectivity Detection in Arabic News Sentences [10.334164786614696]
本研究では,アラビア語における主観性検出のための最初の大規模データセットを提案する。
3.6K の注釈付き文と GPT-4o に基づく説明で構成されている。
データセット、アノテーションプロセス、および広範なベンチマーク結果を詳細に分析する。
論文 参考訳(メタデータ) (2024-06-08T19:24:17Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。