論文の概要: Human-Guided Reasoning with Large Language Models for Vietnamese Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2604.01711v1
- Date: Thu, 02 Apr 2026 07:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.584534
- Title: Human-Guided Reasoning with Large Language Models for Vietnamese Speech Emotion Recognition
- Title(参考訳): ベトナム語音声感情認識のための大規模言語モデルを用いたヒューマンガイド推論
- Authors: Truc Nguyen, Then Tran, Binh Truong, Phuoc Nguyen T. H,
- Abstract要約: 本稿では,人間の知識を学習プロセスに統合する人間と機械の協調的な枠組みを提案する。
簡単なサンプルとあいまいなサンプルを区別するために、信頼に基づくルーティング機構が導入された。
ベトナム語の音声データセットを用いて、3つの感情クラスにわたる2,764のサンプルを実験した。
- 参考スコア(独自算出の注目度): 1.744935381873858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vietnamese Speech Emotion Recognition (SER) remains challenging due to ambiguous acoustic patterns and the lack of reliable annotated data, especially in real-world conditions where emotional boundaries are not clearly separable. To address this problem, this paper proposes a human-machine collaborative framework that integrates human knowledge into the learning process rather than relying solely on data-driven models. The proposed framework is centered around LLM-based reasoning, where acoustic feature-based models are used to provide auxiliary signals such as confidence and feature-level evidence. A confidence-based routing mechanism is introduced to distinguish between easy and ambiguous samples, allowing uncertain cases to be delegated to LLMs for deeper reasoning guided by structured rules derived from human annotation behavior. In addition, an iterative refinement strategy is employed to continuously improve system performance through error analysis and rule updates. Experiments are conducted on a Vietnamese speech dataset of 2,764 samples across three emotion classes (calm, angry, panic), with high inter-annotator agreement (Fleiss Kappa = 0.8574), ensuring reliable ground truth. The proposed method achieves strong performance, reaching up to 86.59% accuracy and Macro F1 around 0.85-0.86, demonstrating its effectiveness in handling ambiguous and hard-to-classify cases. Overall, this work highlights the importance of combining data-driven models with human reasoning, providing a robust and model-agnostic approach for speech emotion recognition in low-resource settings.
- Abstract(参考訳): ベトナムの音声感情認識(SER)は、特に感情境界が明確に分離できない現実の環境では、あいまいな音響パターンと信頼できる注釈データがないため、依然として困難である。
そこで本研究では,データ駆動モデルのみに頼るのではなく,人間の知識を学習プロセスに統合する人間機械協調フレームワークを提案する。
提案手法は, 音響的特徴に基づくモデルを用いて, 信頼性や特徴レベルの証拠などの補助的信号を提供する, LLMに基づく推論を中心にしている。
信頼性に基づくルーティング機構を導入して、容易かつ曖昧なサンプルを識別し、不確実なケースをLLMに委譲し、人間のアノテーション行動から導かれる構造的ルールによって導かれるより深い推論を行う。
さらに、エラー解析やルール更新を通じてシステム性能を継続的に改善するために、反復的な改善戦略が採用されている。
ベトナムの3つの感情クラス(カルム、怒り、パニック)にまたがる2,764のサンプルからなる音声データセットで実験を行い、高いアノテータ間の合意(Fleiss Kappa = 0.8574)が得られた。
提案手法は, 最大86.59%の精度と約0.85~0.86のマクロF1に到達し, 不明瞭で分類が難しいケースに対処する効果を示す。
全体として、この研究は、データ駆動モデルと人間の推論を組み合わせることの重要性を強調し、低リソース環境での音声感情認識のための堅牢でモデルに依存しないアプローチを提供する。
関連論文リスト
- Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences [8.680081568962999]
本研究では,言語モデルにおける人間の嗜好学習に対する現在のアプローチの限界について検討する。
本稿では,人的判断の多次元的性質をよりよく捉えるための機能拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T18:26:16Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance [14.932352020762991]
本稿ではReason-Guided Fact-checking with Latent Explanations REFLEX paradigmを提案する。
バックボーンモデルの内部知識を活用して、検証精度と説明品質の両方を改善する、プラグアンドプレイの自己修正パラダイムである。
自己修正されたトレーニングサンプルはわずか465で、RELFEXは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-25T12:06:23Z) - Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis [15.98124151893659]
大規模言語モデル(LLM)は方法論的評価の自動化の可能性を秘めている。
我々は180のフルテキストの科学論文に対して、最先端のLLMを専門家の人間レビュアーに対してベンチマークした。
論文 参考訳(メタデータ) (2025-10-12T19:04:22Z) - PAC: Pronunciation-Aware Contextualized Large Language Model-based Automatic Speech Recognition [20.121140251177145]
本稿では,Large Language Model(LLM)に基づく自動音声認識(ASR)システムにおける2つの課題について述べる。
The public English Librispeech and Mandarin AISHELL-1 datas showed that PAC: (1) reduces relative Word Error Rate (WER) by 30.2% and 53.8% compared to pre-trained ASR model, (2) achieves 31.8% and 60.5% relative reductions of biased WER for long-tail words。
論文 参考訳(メタデータ) (2025-09-16T04:07:28Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。