論文の概要: Lla-VAP: LSTM Ensemble of Llama and VAP for Turn-Taking Prediction
- arxiv url: http://arxiv.org/abs/2412.18061v1
- Date: Tue, 24 Dec 2024 00:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:18.809710
- Title: Lla-VAP: LSTM Ensemble of Llama and VAP for Turn-Taking Prediction
- Title(参考訳): Lla-VAP:LlamaとVAPのLSTMアンサンブルによるターンタイキング予測
- Authors: Hyunbae Jeon, Frederic Guintu, Rayvant Sahni,
- Abstract要約: 本プロジェクトは,マルチモーダルアンサンブルアプローチを用いて,ターンテイク予測のための既存の戦略を拡張した。
我々は,スクリプト化されたシナリオと記述されていないシナリオの両方において,TRPを識別する精度と効率を改善することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Turn-taking prediction is the task of anticipating when the speaker in a conversation will yield their turn to another speaker to begin speaking. This project expands on existing strategies for turn-taking prediction by employing a multi-modal ensemble approach that integrates large language models (LLMs) and voice activity projection (VAP) models. By combining the linguistic capabilities of LLMs with the temporal precision of VAP models, we aim to improve the accuracy and efficiency of identifying TRPs in both scripted and unscripted conversational scenarios. Our methods are evaluated on the In-Conversation Corpus (ICC) and Coached Conversational Preference Elicitation (CCPE) datasets, highlighting the strengths and limitations of current models while proposing a potentially more robust framework for enhanced prediction.
- Abstract(参考訳): ターンテイク予測は、会話中の話者が別の話者に順番を与えて話し始めることを予想するタスクである。
本プロジェクトは,大規模言語モデル(LLM)と音声活動予測(VAP)モデルを統合したマルチモーダルアンサンブルアプローチを用いて,ターンテイク予測のための既存の戦略を拡張した。
LLMの言語能力とVAPモデルの時間的精度を組み合わせることで、スクリプト化された会話シナリオと記述されていない会話シナリオの両方において、RTPを識別する精度と効率を向上させることを目指している。
提案手法はICC(In-Conversation Corpus)とCCPE(Coached Conversational Preference Elicitation)データセットで評価され,予測の強化のための潜在的に堅牢なフレームワークを提案しながら,現在のモデルの強みと限界を強調した。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment [8.91053640932991]
量子化対応直接選好最適化(QDPO)は、量子化大言語モデル(LLM)の会話能力を改善する
各種言語における2つの命令調整LDMにおいて,QDPOは,既存のPTQや知識蒸留細調整技術と比較して,会話能力の向上に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-03T12:19:06Z) - Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters [21.19251212483406]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々な商用アプリケーションに応用範囲を広げている。
本稿では,投機的復号化における補助モデルのトレーニング手法について検討し,将来のトークンを目標LLMで検証する。
言語固有のドラフトモデルは,対象とする事前訓練とファイントゥン戦略によって最適化され,従来の手法に比べて推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2024-06-24T16:06:50Z) - Turn-taking and Backchannel Prediction with Acoustic and Large Language
Model Fusion [38.78341787348164]
大規模言語モデル(LLM)を用いたニューラル音響モデルを用いた音声対話におけるターンテイクとバックチャネル位置の連続予測手法を提案する。
Switchboardの人間と人間の会話データセットの実験は、我々のアプローチが単一のモダリティでベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T08:59:07Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Benchmarking Sequential Visual Input Reasoning and Prediction in
Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。
本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。
実験により,提案したベンチマークの音質と評価方法が検証された。
論文 参考訳(メタデータ) (2023-10-20T13:14:38Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。