論文の概要: Incivility and Rigidity: The Risks of Fine-Tuning LLMs for Political Argumentation
- arxiv url: http://arxiv.org/abs/2411.16813v3
- Date: Fri, 20 Jun 2025 14:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.08288
- Title: Incivility and Rigidity: The Risks of Fine-Tuning LLMs for Political Argumentation
- Title(参考訳): インキュビティと剛性:政治調停のための微調整LDMのリスク
- Authors: Svetlana Churina, Kokil Jaidka,
- Abstract要約: Twitter(現在のX)やRedditなどのプラットフォームで普及している収益性は、AIシステムを開発する上での課題となっている。
本研究では,2つの対照的な政治的議論データセットを微調整した GPT-3.5 Turbo 実験について報告する。
Redditがカスタマイズしたモデルでは、より安全だが厳格な議論が生まれ、クロスプラットフォームの微調整は毒性を増幅する。
- 参考スコア(独自算出の注目度): 11.255011967393838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The incivility prevalent on platforms like Twitter (now X) and Reddit poses a challenge for developing AI systems that can support productive and rhetorically sound political argumentation. In this study, we report experiments with GPT-3.5 Turbo, fine-tuned on two contrasting datasets of political discussions: high-variance, high-incivility Twitter replies to U.S. Congress, and low-variance, low-incivility posts from Reddit's r/ChangeMyView. We systematically evaluate how these data sources and prompting strategies shape the rhetorical framing and deliberative quality of model-generated arguments. Our results show that Reddit-finetuned models produce safer but rhetorically rigid arguments, while cross-platform fine-tuning amplifies toxicity. Prompting reduces specific toxic behaviors, such as personal attacks, but fails to fully mitigate the influence of high-incivility training data. We introduce and validate a rhetorical evaluation rubric and provide practical guidelines for deploying LLMs in content authoring, moderation, and deliberation support.
- Abstract(参考訳): Twitter(現在のX)やRedditのようなプラットフォームで普及している公民権は、生産的で修辞的な政治的議論を支援するAIシステムを開発する上での課題となっている。
本研究では、GPT-3.5 Turboによる実験を報告し、高ばらつき、高incivility Twitterの米国議会への回答、Redditのr/ChangeMyViewからの低ばらつき低incivilityポストという、2つの対照的な政治的議論のデータセットを微調整した。
我々はこれらのデータソースと促進戦略がモデル生成論の修辞的フレーミングと熟考的品質をどのように形成するかを体系的に評価する。
以上の結果から,Redditの微調整モデルではより安全だが厳密な議論が生まれ,クロスプラットフォームの微調整は毒性を増幅することがわかった。
プロンプティングは、個人攻撃のような特定の有害な行動を減らすが、高能率トレーニングデータの影響を完全に緩和することができない。
我々は,修辞的評価ルーブリックを導入,検証し,コンテンツオーサリング,モデレーション,熟考支援にLLMをデプロイするための実践的ガイドラインを提供する。
関連論文リスト
- The Impact of Persona-based Political Perspectives on Hateful Content Detection [4.04666623219944]
政治的に多様な言語モデルは、多くの研究者や組織にアクセスできない計算資源を必要とする。
近年の研究では、ペルソナをベースとしたプロンプトが、追加の訓練なしに、モデルアウトプットに政治的多様性をもたらすことが確認されている。
本稿では、下流業務における政治的事前訓練に匹敵する結果が得られるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-01T09:53:17Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - On the Use of Proxies in Political Ad Targeting [49.61009579554272]
我々は、主要な政治広告主がプロキシ属性をターゲットとして緩和を回避したことを示す。
本研究は政治広告の規制に関する議論に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-18T17:15:13Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治議論において、合成データを利用して姿勢検出エージェントを訓練し、改善する方法を示す。
我々はMistral-7Bモデルにより、特定の議論のための合成データを生成する。
本研究は,合成データと非ラベルデータセットの最も情報性の高いサンプルを組み合わせることによる影響について検討する。
論文 参考訳(メタデータ) (2024-06-18T10:36:21Z) - Changes in Policy Preferences in German Tweets during the COVID Pandemic [4.663960015139793]
政治的嗜好の微妙なアノテーションを付加した新しいツイートデータセットを提示する。
このデータに基づいて訓練されたテキスト分類モデルを用いて、政治的意見を抽出する。
その結果、新型コロナウイルスのパンデミックを受けて、政治的意見の表現が増加したことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T16:07:28Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Text is All You Need: Personalizing ASR Models using Controllable Speech
Synthesis [17.172909510518814]
特定の個人に汎用音声認識モデルを適用することは、パーソナライズされたデータの不足のために難しい問題である。
近年の研究では、パーソナライズされたテキスト音声合成によるトレーニングデータの量の増加が提案されている。
論文 参考訳(メタデータ) (2023-03-27T02:50:02Z) - NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models [13.887401380190335]
そこで我々は,NoisyHateという名前の人書き摂動の,新しい高品質なデータセットを紹介した。
我々は,NoisyHateの摂動が,従来のアルゴリズムによる有毒なデータセットと異なる特徴を持つことを示した。
論文 参考訳(メタデータ) (2023-03-18T14:54:57Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。