Fugu-MT 論文翻訳(概要): LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

論文の概要: LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

arxiv url: http://arxiv.org/abs/2406.03363v1
Date: Wed, 5 Jun 2024 15:18:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 17:41:32.775679
Title: LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback
Title（参考訳）: 機械フィードバックからの強化学習を用いたLLMによる不適切な調停の書き換え
Authors: Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth,
Abstract要約: 本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
参考スコア（独自算出の注目度）: 16.57980268646285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring that online discussions are civil and productive is a major challenge for social media platforms. Such platforms usually rely both on users and on automated detection tools to flag inappropriate arguments of other users, which moderators then review. However, this kind of post-hoc moderation is expensive and time-consuming, and moderators are often overwhelmed by the amount and severity of flagged content. Instead, a promising alternative is to prevent negative behavior during content creation. This paper studies how inappropriate language in arguments can be computationally mitigated. We propose a reinforcement learning-based rewriting approach that balances content preservation and appropriateness based on existing classifiers, prompting an instruction-finetuned large language model (LLM) as our initial policy. Unlike related style transfer tasks, rewriting inappropriate arguments allows deleting and adding content permanently. It is therefore tackled on document level rather than sentence level. We evaluate different weighting schemes for the reward function in both absolute and relative human assessment studies. Systematic experiments on non-parallel data provide evidence that our approach can mitigate the inappropriateness of arguments while largely preserving their content. It significantly outperforms competitive baselines, including few-shot learning, prompting, and humans.
Abstract（参考訳）: オンラインの議論が市民的かつ生産的であることを保証することは、ソーシャルメディアプラットフォームにとって大きな課題である。このようなプラットフォームは通常、ユーザと自動検出ツールの両方に依存して、他のユーザの不適切な引数をフラグし、モデレーターがレビューする。しかし、このようなポストホック・モデレーションは高価で時間を要するため、モデレーターはフラグ付きコンテンツの量や重大さに圧倒されることが多い。代わりに、有望な代替手段は、コンテンツ作成中のネガティブな振る舞いを防ぐことである。本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。本稿では,既存の分類器に基づいてコンテンツ保存と適切性をバランスさせる強化学習に基づく書き直し手法を提案する。関連するスタイル転送タスクとは異なり、不適切な引数を書き直すことで、コンテンツを永久に削除および追加することができる。そのため、文レベルよりも文書レベルで取り組まれている。絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。非並列データに関する体系的な実験は、我々の手法が議論の不適切さを軽減し、主に内容を保存することができることを示す。これは、数ショットの学習、プロンプト、人間など、競争上のベースラインを大幅に上回っている。

関連論文リスト

The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文参考訳（メタデータ） (2024-07-02T07:12:51Z)
Consolidating Strategies for Countering Hate Speech Using Persuasive Dialogues [3.8979646385036175]
オンライン会話におけるヘイトフルコメントに対する反論を生み出すためのコントロール可能な戦略について検討する。自動評価と人的評価を用いて、流動的で議論的で論理的に健全な議論を生成する特徴の最適な組み合わせを決定する。我々は,このような特徴を持つテキストを自動的に注釈付けするための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテートバージョンを共有した。
論文参考訳（メタデータ） (2024-01-15T16:31:18Z)
CASA: Causality-driven Argument Sufficiency Assessment [79.13496878681309]
ゼロショット因果関係に基づく議論十分性評価フレームワークであるCASAを提案する。 PSは前提イベントの導入が前提イベントと結論イベントの両方が欠落した場合の結論につながる可能性を測っている。 2つの論理的誤り検出データセットの実験により、CASAは不十分な議論を正確に識別することを示した。
論文参考訳（メタデータ） (2024-01-10T16:21:18Z)
Argue with Me Tersely: Towards Sentence-Level Counter-Argument Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文参考訳（メタデータ） (2023-12-21T06:51:34Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。最終事実度スコアは、調整可能なスコアリング機構により算出される。英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文参考訳（メタデータ） (2023-05-22T17:59:42Z)
QRelScore: Better Evaluating Generated Questions with Deeper Understanding of Context-aware Relevance [54.48031346496593]
我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。 BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
論文参考訳（メタデータ） (2022-04-29T07:39:53Z)
Data Expansion using Back Translation and Paraphrasing for Hate Speech Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。 AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文参考訳（メタデータ） (2021-05-25T09:52:42Z)
Stay on Topic, Please: Aligning User Comments to the Content of a News Article [7.3203631241415055]
新たな記事ベースに投稿されたユーザコメントとその内容との整合性を分類する分類アルゴリズムを提案する。このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行う。
論文参考訳（メタデータ） (2021-03-03T18:29:00Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。 380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文参考訳（メタデータ） (2020-03-13T10:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。