論文の概要: Fine-Tuning LLMs with Noisy Data for Political Argument Generation
- arxiv url: http://arxiv.org/abs/2411.16813v1
- Date: Mon, 25 Nov 2024 15:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:49.073417
- Title: Fine-Tuning LLMs with Noisy Data for Political Argument Generation
- Title(参考訳): ノイズデータ付き微調整LDMによる政治課題生成
- Authors: Svetlana Churina, Kokil Jaidka,
- Abstract要約: Redditのデータ上の微調整されたモデルは、議論の質が最も高く、ノイズの多いデータの組み合わせは、持続的な毒性につながった。
プロンプティング戦略は、個人攻撃のような特定の有毒な特徴を減らしたが、より広範な影響しか与えなかった。
- 参考スコア(独自算出の注目度): 11.255011967393838
- License:
- Abstract: The incivility in social media discourse complicates the deployment of automated text generation models for politically sensitive content. Fine-tuning and prompting strategies are critical, but underexplored, solutions to mitigate toxicity in such contexts. This study investigates the fine-tuning and prompting effects on GPT-3.5 Turbo using subsets of the CLAPTON dataset of political discussion posts, comprising Twitter and Reddit data labeled for their justification, reciprocity and incivility. Fine-tuned models on Reddit data scored highest on discussion quality, while combined noisy data led to persistent toxicity. Prompting strategies reduced specific toxic traits, such as personal attacks, but had limited broader impact. The findings emphasize that high-quality data and well-crafted prompts are essential to reduce incivility and improve rhetorical quality in automated political discourse generation.
- Abstract(参考訳): ソーシャルメディアの言論における市民性は、政治的に敏感なコンテンツのための自動テキスト生成モデルの展開を複雑にしている。
微調整と促進戦略は、これらの文脈における毒性を緩和するソリューションとして重要であるが、未調査である。
本研究は,Twitter と Reddit のデータを用いた政治議論記事の CLAPTON データセットのサブセットを用いて,GPT-3.5 Turbo の微調整と促進効果について検討した。
Redditのデータ上の微調整されたモデルは、議論の質が最も高く、ノイズの多いデータの組み合わせは、持続的な毒性につながった。
プロンプティング戦略は、個人攻撃のような特定の有毒な特徴を減らしたが、より広範な影響しか与えなかった。
この知見は、自動化された政治談話生成において、質の高いデータと巧妙なプロンプトは、悪質を減らし、修辞的な品質を改善するために不可欠であることを強調している。
関連論文リスト
- On the Use of Proxies in Political Ad Targeting [49.61009579554272]
我々は、主要な政治広告主がプロキシ属性をターゲットとして緩和を回避したことを示す。
本研究は政治広告の規制に関する議論に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-18T17:15:13Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治議論において、合成データを利用して姿勢検出エージェントを訓練し、改善する方法を示す。
我々はMistral-7Bモデルにより、特定の議論のための合成データを生成する。
本研究は,合成データと非ラベルデータセットの最も情報性の高いサンプルを組み合わせることによる影響について検討する。
論文 参考訳(メタデータ) (2024-06-18T10:36:21Z) - Changes in Policy Preferences in German Tweets during the COVID Pandemic [4.663960015139793]
政治的嗜好の微妙なアノテーションを付加した新しいツイートデータセットを提示する。
このデータに基づいて訓練されたテキスト分類モデルを用いて、政治的意見を抽出する。
その結果、新型コロナウイルスのパンデミックを受けて、政治的意見の表現が増加したことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T16:07:28Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis [17.172909510518814]
特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
論文 参考訳(メタデータ) (2023-03-27T02:50:02Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。