論文の概要: CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
- arxiv url: http://arxiv.org/abs/2509.08438v1
- Date: Wed, 10 Sep 2025 09:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.374944
- Title: CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework
- Title(参考訳): CommonVoice-SpeechREとRPG-MoGe:新しいデータセットと多階生成フレームワークによる音声関係抽出の改善
- Authors: Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu,
- Abstract要約: 音声関係抽出(SpeechRE)は、音声から直接関係三重項を抽出することを目的としている。
既存のベンチマークデータセットは、合成データに大きく依存しており、実際の人間の発話の十分な量と多様性を欠いている。
CommonVoice-SpeechREは、多様な話者から2万近い実際の音声サンプルからなる大規模なデータセットである。
- 参考スコア(独自算出の注目度): 21.853908675421504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Relation Extraction (SpeechRE) aims to extract relation triplets directly from speech. However, existing benchmark datasets rely heavily on synthetic data, lacking sufficient quantity and diversity of real human speech. Moreover, existing models also suffer from rigid single-order generation templates and weak semantic alignment, substantially limiting their performance. To address these challenges, we introduce CommonVoice-SpeechRE, a large-scale dataset comprising nearly 20,000 real-human speech samples from diverse speakers, establishing a new benchmark for SpeechRE research. Furthermore, we propose the Relation Prompt-Guided Multi-Order Generative Ensemble (RPG-MoGe), a novel framework that features: (1) a multi-order triplet generation ensemble strategy, leveraging data diversity through diverse element orders during both training and inference, and (2) CNN-based latent relation prediction heads that generate explicit relation prompts to guide cross-modal alignment and accurate triplet generation. Experiments show our approach outperforms state-of-the-art methods, providing both a benchmark dataset and an effective solution for real-world SpeechRE. The source code and dataset are publicly available at https://github.com/NingJinzhong/SpeechRE_RPG_MoGe.
- Abstract(参考訳): 音声関係抽出(SpeechRE)は、音声から直接関係三重項を抽出することを目的としている。
しかし、既存のベンチマークデータセットは合成データに大きく依存しており、実際の人間の発話の量と多様性が不足している。
さらに、既存のモデルは厳格な単階生成テンプレートと弱いセマンティックアライメントに悩まされ、パフォーマンスが著しく制限される。
これらの課題に対処するために,多様な話者から2万近い実際の音声サンプルからなる大規模データセットであるCommonVoice-SpeechREを導入し,SpeechRE研究のための新しいベンチマークを構築した。
さらに,(1)多階トリプルト生成アンサンブル戦略と,(2)CNNに基づく有意な関係を生成する潜在関係予測ヘッドにより,クロスモーダルアライメントと正確な三重項生成を導出する,新しいフレームワークであるリレーショナル・プロンプトガイド型マルチオーダ生成アンサンブル(RPG-MoGe)を提案する。
実験により、我々のアプローチは最先端の手法よりも優れており、ベンチマークデータセットと実世界のSpeechREに効果的なソリューションを提供する。
ソースコードとデータセットはhttps://github.com/NingJinzhong/SpeechRE_RPG_MoGeで公開されている。
関連論文リスト
- OmniRet: Efficient and High-Fidelity Omni Modality Retrieval [51.80205678389465]
OmniRetは,テキスト,視覚,音声の3つの重要なモダリティにまたがる複雑なクエリを処理可能な,最初の検索モデルである。
提案モデルでは,コンポジションクエリ,音声,ビデオ検索のタスクにおいて,最先端のモデルを用いたオンパーパフォーマンスを実現しつつ,大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-02T17:19:55Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - CASPER: A Large Scale Spontaneous Speech Dataset [25.446606381490025]
本稿では,自発音声データの不足に対処するための基礎研究として,我々のデータセットと方法論を紹介する。
今後このデータセットを拡大し、研究コミュニティのためのリソースを拡大する予定です。
論文 参考訳(メタデータ) (2025-05-30T22:03:59Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文 参考訳(メタデータ) (2025-02-17T15:58:56Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。