論文の概要: Northeastern Uni at Multilingual Counterspeech Generation: Enhancing Counter Speech Generation with LLM Alignment through Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.15453v1
- Date: Thu, 19 Dec 2024 23:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:15.158262
- Title: Northeastern Uni at Multilingual Counterspeech Generation: Enhancing Counter Speech Generation with LLM Alignment through Direct Preference Optimization
- Title(参考訳): 多言語対数音声生成における北東Uni:直接選好最適化によるLLMアライメントによる対数音声生成の強化
- Authors: Sahil Wadhwa, Chengtian Xu, Haoming Chen, Aakash Mahalingam, Akankshya Kar, Divya Chaudhary,
- Abstract要約: 対音声の自動生成は,構築的および情報的応答を提供することにより,ヘイトスピーチに対処するための重要な戦略である。
既存の手法は、高品質でインパクトがあり、スケーラブルなCSを生成するのに失敗することが多い。
本稿では,大規模言語モデル (LLM) をスーパーバイザード・ファインチューニング (SFT) と直接選好最適化 (DPO) で整列させることによりCS生成を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.1368382184602488
- License:
- Abstract: The automatic generation of counter-speech (CS) is a critical strategy for addressing hate speech by providing constructive and informed responses. However, existing methods often fail to generate high-quality, impactful, and scalable CS, particularly across diverse linguistic contexts. In this paper, we propose a novel methodology to enhance CS generation by aligning Large Language Models (LLMs) using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO). Our approach leverages DPO to align LLM outputs with human preferences, ensuring contextually appropriate and linguistically adaptable responses. Additionally, we incorporate knowledge grounding to enhance the factual accuracy and relevance of generated CS. Experimental results demonstrate that DPO-aligned models significantly outperform SFT baselines on CS benchmarks while scaling effectively to multiple languages. These findings highlight the potential of preference-based alignment techniques to advance CS generation across varied linguistic settings. The model supervision and alignment is done in English and the same model is used for reporting metrics across other languages like Basque, Italian, and Spanish.
- Abstract(参考訳): 対音声の自動生成は,構築的および情報的応答を提供することにより,ヘイトスピーチに対処するための重要な戦略である。
しかし、既存の手法はしばしば高品質でインパクトがあり、スケーラブルなCSを生成することができず、特に多種多様な言語的文脈にまたがっている。
本稿では,SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を用いて,大規模言語モデル(LLM)を整列させてCS生成を改善する手法を提案する。
我々の手法はDPOを利用してLLM出力と人間の好みを一致させ、文脈的に適切で言語的に適応可能な応答を確実にする。
さらに,知識基盤を組み込んで,生成したCSの事実的正確性と関連性を高める。
実験結果から,DPO対応モデルはCSベンチマークのSFTベースラインを著しく上回り,複数の言語に効果的にスケール可能であることが示された。
これらの知見は、様々な言語環境においてCS生成を促進するための嗜好に基づくアライメント手法の可能性を強調した。
モデル監督とアライメントは英語で行われ、同じモデルがバスク語、イタリア語、スペイン語など他の言語でメトリクスを報告するために使用されている。
関連論文リスト
- Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring Data [21.240439045909724]
コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。
本稿では,大規模言語モデル(LLM)を用いたCSデータ生成手法を提案する。
そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T15:04:13Z) - Lla-VAP: LSTM Ensemble of Llama and VAP for Turn-Taking Prediction [0.0]
本プロジェクトは,マルチモーダルアンサンブルアプローチを用いて,ターンテイク予測のための既存の戦略を拡張した。
我々は,スクリプト化されたシナリオと記述されていないシナリオの両方において,TRPを識別する精度と効率を改善することを目的としている。
論文 参考訳(メタデータ) (2024-12-24T00:20:38Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。