Fugu-MT 論文翻訳(概要): Voice Activity Projection Model with Multimodal Encoders

論文の概要: Voice Activity Projection Model with Multimodal Encoders

arxiv url: http://arxiv.org/abs/2506.03980v1
Date: Wed, 04 Jun 2025 14:10:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.370086
Title: Voice Activity Projection Model with Multimodal Encoders
Title（参考訳）: マルチモーダルエンコーダを用いた音声活動予測モデル
Authors: Takeshi Saga, Catherine Pelachaud,
Abstract要約: 本稿では,事前学習した音声と顔エンコーダで強化されたマルチモーダルモデルを提案する。私たちのモデルは競争力があり、場合によっては、ターンテイクメトリクスの最先端モデルよりも優れています。
参考スコア（独自算出の注目度）: 0.9208007322096533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Turn-taking management is crucial for any social interaction. Still, it is challenging to model human-machine interaction due to the complexity of the social context and its multimodal nature. Unlike conventional systems based on silence duration, previous existing voice activity projection (VAP) models successfully utilized a unified representation of turn-taking behaviors as prediction targets, which improved turn-taking prediction performance. Recently, a multimodal VAP model outperformed the previous state-of-the-art model by a significant margin. In this paper, we propose a multimodal model enhanced with pre-trained audio and face encoders to improve performance by capturing subtle expressions. Our model performed competitively, and in some cases, even better than state-of-the-art models on turn-taking metrics. All the source codes and pretrained models are available at https://github.com/sagatake/VAPwithAudioFaceEncoders.
Abstract（参考訳）: ターンテイク・マネジメントはあらゆる社会的相互作用にとって不可欠である。それでも、社会的文脈の複雑さとマルチモーダルな性質のため、人間と機械の相互作用をモデル化することは困難である。サイレント期間に基づく従来のシステムとは異なり、既存の音声活動予測(VAP)モデルは、ターンテイク動作を予測ターゲットとして統一的に表現することに成功し、ターンテイク予測性能が向上した。近年,マルチモーダルなVAPモデルでは,従来の最先端モデルよりも大きな差がみられた。本稿では,事前学習した音声と顔エンコーダで強化されたマルチモーダルモデルを提案する。私たちのモデルは競争力があり、場合によっては、ターンテイクメトリクスの最先端モデルよりも優れています。すべてのソースコードと事前訓練されたモデルはhttps://github.com/sagatake/VAPwithAudioFaceEncodersで入手できる。

関連論文リスト

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice [8.44136409474895]
我々は、Contrastive Audio-Visual Masked Auto-Encoder(CAV-MAE)の拡張版に基づく、事前訓練されたオーディオ視覚マスケオートエンコーダであるSocial-MAEを提案する。我々は、CAV-MAEを入力としてより多くのフレームを受け取るように修正し、人間の社会的相互作用のデータセット(VoxCeleb2)を自己管理的に事前訓練する。このモデルは,マルチモーダル感情認識と笑い認識の最先端結果と,明らかな性格推定のための競合結果を達成する。
論文参考訳（メタデータ） (2025-08-24T19:49:48Z)
Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文参考訳（メタデータ） (2025-07-09T18:13:52Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文参考訳（メタデータ） (2023-10-25T03:40:50Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)
TERA: Self-Supervised Learning of Transformer Encoder Representation for Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。 TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文参考訳（メタデータ） (2020-07-12T16:19:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。