Fugu-MT 論文翻訳(概要): The Art of Embedding Fusion: Optimizing Hate Speech Detection

論文の概要: The Art of Embedding Fusion: Optimizing Hate Speech Detection

arxiv url: http://arxiv.org/abs/2306.14939v1
Date: Mon, 26 Jun 2023 17:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 15:58:39.363230
Title: The Art of Embedding Fusion: Optimizing Hate Speech Detection
Title（参考訳）: 埋め込み融合技術:ヘイトスピーチ検出の最適化
Authors: Mohammad Aflah Khan, Neemesh Yadav, Mohit Jain and Sanyam Goyal
Abstract要約: ヘイトスピーチ検出は、言語的および文脈的ニュアンスをキャプチャする必要がある、困難な自然言語処理タスクである。事前訓練された言語モデル(PLM)は、このタスクを改善するために、テキストのリッチな意味表現を提供する。いくつかのPLMの様々な組み合わせ技術に光を当て、その有効性を分析した。
参考スコア（独自算出の注目度）: 6.132846653900556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hate speech detection is a challenging natural language processing task that requires capturing linguistic and contextual nuances. Pre-trained language models (PLMs) offer rich semantic representations of text that can improve this task. However there is still limited knowledge about ways to effectively combine representations across PLMs and leverage their complementary strengths. In this work, we shed light on various combination techniques for several PLMs and comprehensively analyze their effectiveness. Our findings show that combining embeddings leads to slight improvements but at a high computational cost and the choice of combination has marginal effect on the final outcome. We also make our codebase public at https://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detection .
Abstract（参考訳）: ヘイトスピーチ検出は、言語的および文脈的ニュアンスをキャプチャする必要がある、難しい自然言語処理タスクである。事前訓練された言語モデル(PLM)は、このタスクを改善するためのリッチな意味表現を提供する。しかし、PLM間の表現を効果的に組み合わせ、それらの相補的な強みを活用する方法についてはまだ知識が限られている。本研究は,複数のPLMの様々な組み合わせ技術に光を当て,その効果を総合的に分析するものである。以上の結果から,組込みを組み合わせるとわずかに改善するが,計算コストが高く,組み合わせの選択が最終結果に限界的な影響を与えることが示された。また、コードベースをhttps://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detectionで公開しています。

関連論文リスト

Closing the Gap Between Text and Speech Understanding in LLMs [28.538793793887223]
大規模言語モデルは、テキスト機能を音声入力に拡張するために適応することができる。これらの言語適応型LLMは、テキストベースのものよりも一貫して性能が劣っている。 SALAD-Sample- efficient Alignment with Learning through Active selection and cross-modal Distillation。
論文参考訳（メタデータ） (2025-10-15T14:57:16Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-08-19T06:58:16Z)
Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文参考訳（メタデータ） (2025-07-30T14:49:30Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Improving Contextual ASR via Multi-grained Fusion with Large Language Models [12.755830619473368]
本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。提案手法は,ASRの音響情報とLLMの豊富な文脈知識を組み合わせ,詳細なトークン精度と全体論的フレーズレベルの理解のバランスをとる,遅延融合戦略を取り入れたものである。中国語と英語のデータセットを用いた実験により,キーワード関連メトリクスの最先端性能が得られた。
論文参考訳（メタデータ） (2025-07-16T13:59:32Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Multi-task Learning with Active Learning for Arabic Offensive Speech Detection [1.534667887016089]
本稿では,多タスク学習(MTL)とアクティブラーニングを統合し,アラビアメディアテキストにおける攻撃的音声検出を強化する新しいフレームワークを提案する。本手法は,トレーニング中のタスクの重み付けを動的に調整し,各タスクのコントリビューションのバランスをとり,性能を最適化する。 OSACT2022データセットの実験結果は、提案されたフレームワークが85.42%の最先端のマクロF1スコアを達成したことを示している。
論文参考訳（メタデータ） (2025-06-03T11:17:03Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
テキスト対応音声トークン化と埋め込み(TASTE)について紹介する。 TASTEは、音声トークンと対応するテキストの書き起こしをトークン化段階で整列させることにより、モダリティギャップに直接対処する手法である。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
Text-Speech Language Models with Improved Cross-Modal Transfer by Aligning Abstraction Levels [12.179720395334503]
階層間の抽象化レベルをよりよく整合させるモジュールによる語彙拡張の拡張を提案する。われわれのモデル、textscSmolTolkは、より桁違いに多くの計算で訓練された最先端のTSLMに匹敵するか、上回っている。
論文参考訳（メタデータ） (2025-03-08T13:28:50Z)
Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文参考訳（メタデータ） (2024-10-27T04:28:57Z)
VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-23T00:36:06Z)
Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文参考訳（メタデータ） (2024-10-02T01:32:47Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文参考訳（メタデータ） (2024-07-31T03:53:14Z)
A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR [14.380210167130032]
近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、挿入エラーの増大など、いくつかの制限が続く。本稿では,これらの課題に対処するための包括的解決策を提案する。
論文参考訳（メタデータ） (2024-06-25T04:35:50Z)
Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文参考訳（メタデータ） (2023-12-30T14:20:04Z)
Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文参考訳（メタデータ） (2023-11-15T06:54:44Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Linguistically-Informed Transformations (LIT): A Method for Automatically Generating Contrast Sets [13.706520309917634]
コントラスト集合を自動生成するLinguistically-Informed Transformation (LIT) 法を提案する。実験によると、現在の事前訓練された言語モデルは、自動生成されたコントラストセットで苦労している。トレーニングデータを拡張するためにLITを適用してコントラストセットのモデルの性能を改善するが、元のデータの性能には影響しない。
論文参考訳（メタデータ） (2020-10-16T18:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。