論文の概要: DialogGraph-LLM: Graph-Informed LLMs for End-to-End Audio Dialogue Intent Recognition
- arxiv url: http://arxiv.org/abs/2511.11000v2
- Date: Mon, 17 Nov 2025 02:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.589568
- Title: DialogGraph-LLM: Graph-Informed LLMs for End-to-End Audio Dialogue Intent Recognition
- Title(参考訳): DialogGraph-LLM: エンドツーエンド音声対話インテント認識のためのグラフインフォーム付きLLM
- Authors: HongYu Liu, Junxin Li, Changxi Guo, Hao Chen, Yaqian Huang, Yifu Guo, Huan Yang, Lihua Cai,
- Abstract要約: DialogGraph-LLMは、音声対話における話者意図を認識するためのエンドツーエンドフレームワークである。
MR-DAN(Multi-Relational Dialogue Attention Network)アーキテクチャと直接音響からインテントへの推論のためのマルチモーダル基礎モデルを組み合わせる。
このフレームワークは、現実世界のシナリオ音声対話において、意図認識における高いパフォーマンスと効率を示す。
- 参考スコア(独自算出の注目度): 10.94195981338177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing speaker intent in long audio dialogues among speakers has a wide range of applications, but is a non-trivial AI task due to complex inter-dependencies in speaker utterances and scarce annotated data. To address these challenges, an end-to-end framework, namely DialogGraph-LLM, is proposed in the current work. DialogGraph-LLM combines a novel Multi-Relational Dialogue Attention Network (MR-DAN) architecture with multimodal foundation models (e.g., Qwen2.5-Omni-7B) for direct acoustic-to-intent inference. An adaptive semi-supervised learning strategy is designed using LLM with a confidence-aware pseudo-label generation mechanism based on dual-threshold filtering using both global and class confidences, and an entropy-based sample selection process that prioritizes high-information unlabeled instances. Extensive evaluations on the proprietary MarketCalls corpus and the publicly available MIntRec 2.0 benchmark demonstrate DialogGraph-LLM's superiority over strong audio and text-driven baselines. The framework demonstrates strong performance and efficiency in intent recognition in real world scenario audio dialogues, proving its practical value for audio-rich domains with limited supervision. Our code is available at https://github.com/david188888/DialogGraph-LLM.
- Abstract(参考訳): 話者間の長い音声対話における話者意図の認識には幅広い応用があるが、話者発話の複雑な相互依存性と注釈付きデータが少ないため、非自明なAIタスクである。
これらの課題に対処するため、DialogGraph-LLMと呼ばれるエンドツーエンドフレームワークが現在の作業で提案されている。
DialogGraph-LLMは、MR-DAN(Multi-Relational Dialogue Attention Network)アーキテクチャと、直接音響からインテリジェントへの推論のためのマルチモーダル基礎モデル(例えばQwen2.5-Omni-7B)を組み合わせる。
適応型半教師付き学習戦略は、大域的およびクラス的信頼度を用いた二重閾値フィルタリングに基づく信頼を意識した擬似ラベル生成機構と、高情報未ラベルのインスタンスを優先するエントロピーに基づくサンプル選択プロセスを用いて設計される。
プロプライエタリな MarketCalls corpus と MIntRec 2.0 ベンチマークに関する広範な評価は、DialogGraph-LLM が強力な音声およびテキスト駆動ベースラインよりも優れていることを示している。
このフレームワークは、実世界のシナリオ音声対話において、意図認識におけるパフォーマンスと効率性を強く示し、監督が限定されたオーディオリッチなドメインに対して、その実践的価値を証明している。
私たちのコードはhttps://github.com/david188888/DialogGraph-LLM.comで公開されています。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - From Intents to Conversations: Generating Intent-Driven Dialogues with Contrastive Learning for Multi-Turn Classification [21.6988262735281]
Chain-of-Intentは、隠れマルコフモデルと大規模言語モデルを統合する新しいフレームワークである。
MINT-CLはマルチターンインテント分類のための対照的な学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - Unsupervised End-to-End Task-Oriented Dialogue with LLMs: The Power of the Noisy Channel [9.082443585886127]
タスク指向の対話システムは一般的に、APIと対話するためにターンレベルのアノテーションを必要とする。
ラベルなしデータとスキーマ定義は、完全に教師なしの作業タスク指向対話システムを構築するのに十分である。
本稿では,ターンレベルのアノテーションを潜在変数として推論する予測最大化(EM)を用いた革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-23T16:51:26Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。