論文の概要: Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction
- arxiv url: http://arxiv.org/abs/2504.21372v1
- Date: Wed, 30 Apr 2025 07:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:07:00.104303
- Title: Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction
- Title(参考訳): 音声イベント抽出のための検索機能強化Few-Shot Prompting
- Authors: Máté Gedeon,
- Abstract要約: 音声イベント抽出(SpeechEE)は、音声認識(ASR)と自然言語処理(NLP)の交差点に位置する課題である。
本稿では,Large Language Models (LLM) のセマンティック検索強化プロンプトと高性能ASRを統合したモジュール型パイプラインベースのSpeechEEフレームワークを提案する。
この結果から,LLMに強化されたパイプラインアプローチは,エンド・ツー・エンドのシステムに匹敵する,あるいは超越できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Event Extraction (SpeechEE) is a challenging task that lies at the intersection of Automatic Speech Recognition (ASR) and Natural Language Processing (NLP), requiring the identification of structured event information from spoken language. In this work, we present a modular, pipeline-based SpeechEE framework that integrates high-performance ASR with semantic search-enhanced prompting of Large Language Models (LLMs). Our system first classifies speech segments likely to contain events using a hybrid filtering mechanism including rule-based, BERT-based, and LLM-based models. It then employs few-shot LLM prompting, dynamically enriched via semantic similarity retrieval, to identify event triggers and extract corresponding arguments. We evaluate the pipeline using multiple LLMs (Llama3-8B, GPT-4o-mini, and o1-mini) highlighting significant performance gains with o1-mini, which achieves 63.3% F1 on trigger classification and 27.8% F1 on argument classification, outperforming prior benchmarks. Our results demonstrate that pipeline approaches, when empowered by retrieval-augmented LLMs, can rival or exceed end-to-end systems while maintaining interpretability and modularity. This work provides practical insights into LLM-driven event extraction and opens pathways for future hybrid models combining textual and acoustic features.
- Abstract(参考訳): 音声イベント抽出(SpeechEE)は、音声認識(ASR)と自然言語処理(NLP)の交差点に位置する課題であり、音声言語から構造化イベント情報を識別する必要がある。
本研究では,Large Language Models (LLMs) のセマンティック検索強化プロンプトと高性能ASRを統合したモジュール型パイプラインベースのSpeechEEフレームワークを提案する。
本システムでは,ルールベース,BERTベース,LLMベースのモデルを含むハイブリッドフィルタリング機構を用いて,イベントを含む可能性のある音声セグメントを分類する。
その後、意味的類似性検索を通じて動的にリッチ化され、イベントトリガーを識別し、対応する引数を抽出する。
複数 LLM (Llama3-8B, GPT-4o-mini, o1-mini) を用いてパイプラインの評価を行い, トリガ分類では63.3% F1, 引数分類では27.8% F1, 先行ベンチマークでは27.8% F1 を達成した。
この結果から,LLMに強化されたパイプラインアプローチは,解釈性とモジュール性を維持しつつ,エンドツーエンドシステムと競合したり,超えたりできることを示した。
本研究は,LLM駆動イベント抽出の実践的知見を提供し,テキストと音響の特徴を組み合わせた将来のハイブリッドモデルのための経路を開放する。
関連論文リスト
- DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting [32.70214938434769]
本稿では,大規模言語モデル(LLM)の音声認識後処理機能について検討する。
我々は、ゼロショットと少数ショットのインコンテキスト学習と、新しいタスクアクティベーション・プロンプト法という、異なるプロンプト方式を評価する。
凍結LDMを用いた文脈内学習でのみ再構成を行うことで、ドメインチューニングLMによる再構成と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-27T13:36:03Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。