論文の概要: CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
- arxiv url: http://arxiv.org/abs/2509.08438v1
- Date: Wed, 10 Sep 2025 09:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.374944
- Title: CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
- Title(参考訳): CommonVoice-SpeechREとRPG-MoGe:新しいデータセットと多階生成フレームワークによる音声関係抽出の改善
- Authors: Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu,
- Abstract要約: 音声関係抽出(SpeechRE)は、音声から直接関係三重項を抽出することを目的としている。
既存のベンチマークデータセットは、合成データに大きく依存しており、実際の人間の発話の十分な量と多様性を欠いている。
CommonVoice-SpeechREは、多様な話者から2万近い実際の音声サンプルからなる大規模なデータセットである。
- 参考スコア(独自算出の注目度): 21.853908675421504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Relation Extraction (SpeechRE) aims to extract relation triplets directly from speech. However, existing benchmark datasets rely heavily on synthetic data, lacking sufficient quantity and diversity of real human speech. Moreover, existing models also suffer from rigid single-order generation templates and weak semantic alignment, substantially limiting their performance. To address these challenges, we introduce CommonVoice-SpeechRE, a large-scale dataset comprising nearly 20,000 real-human speech samples from diverse speakers, establishing a new benchmark for SpeechRE research. Furthermore, we propose the Relation Prompt-Guided Multi-Order Generative Ensemble (RPG-MoGe), a novel framework that features: (1) a multi-order triplet generation ensemble strategy, leveraging data diversity through diverse element orders during both training and inference, and (2) CNN-based latent relation prediction heads that generate explicit relation prompts to guide cross-modal alignment and accurate triplet generation. Experiments show our approach outperforms state-of-the-art methods, providing both a benchmark dataset and an effective solution for real-world SpeechRE. The source code and dataset are publicly available at https://github.com/NingJinzhong/SpeechRE_RPG_MoGe.
- Abstract(参考訳): 音声関係抽出(SpeechRE)は、音声から直接関係三重項を抽出することを目的としている。
しかし、既存のベンチマークデータセットは合成データに大きく依存しており、実際の人間の発話の量と多様性が不足している。
さらに、既存のモデルは厳格な単階生成テンプレートと弱いセマンティックアライメントに悩まされ、パフォーマンスが著しく制限される。
これらの課題に対処するために,多様な話者から2万近い実際の音声サンプルからなる大規模データセットであるCommonVoice-SpeechREを導入し,SpeechRE研究のための新しいベンチマークを構築した。
さらに,(1)多階トリプルト生成アンサンブル戦略と,(2)CNNに基づく有意な関係を生成する潜在関係予測ヘッドにより,クロスモーダルアライメントと正確な三重項生成を導出する,新しいフレームワークであるリレーショナル・プロンプトガイド型マルチオーダ生成アンサンブル(RPG-MoGe)を提案する。
実験により、我々のアプローチは最先端の手法よりも優れており、ベンチマークデータセットと実世界のSpeechREに効果的なソリューションを提供する。
ソースコードとデータセットはhttps://github.com/NingJinzhong/SpeechRE_RPG_MoGeで公開されている。
関連論文リスト
- CASPER: A Large Scale Spontaneous Speech Dataset [25.446606381490025]
本稿では,自発音声データの不足に対処するための基礎研究として,我々のデータセットと方法論を紹介する。
今後このデータセットを拡大し、研究コミュニティのためのリソースを拡大する予定です。
論文 参考訳(メタデータ) (2025-05-30T22:03:59Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。