論文の概要: Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing
- arxiv url: http://arxiv.org/abs/2402.15151v1
- Date: Fri, 23 Feb 2024 07:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:18:15.637385
- Title: Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing
- Title(参考訳): 視覚音声が言語に合致する場所 - vsp-llmフレームワークによる効率的・文脈対応視覚音声処理
- Authors: Jeong Hun Yeo, Seunghee Han, Minsu Kim, Yong Man Ro
- Abstract要約: LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
- 参考スコア(独自算出の注目度): 61.95652444767649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visual speech processing, context modeling capability is one of the most
important requirements due to the ambiguous nature of lip movements. For
example, homophenes, words that share identical lip movements but produce
different sounds, can be distinguished by considering the context. In this
paper, we propose a novel framework, namely Visual Speech Processing
incorporated with LLMs (VSP-LLM), to maximize the context modeling ability by
bringing the overwhelming power of LLMs. Specifically, VSP-LLM is designed to
perform multi-tasks of visual speech recognition and translation, where the
given instructions control the type of task. The input video is mapped to the
input latent space of a LLM by employing a self-supervised visual speech model.
Focused on the fact that there is redundant information in input frames, we
propose a novel deduplication method that reduces the embedded visual features
by employing visual speech units. Through the proposed deduplication and Low
Rank Adaptors (LoRA), VSP-LLM can be trained in a computationally efficient
manner. In the translation dataset, the MuAViC benchmark, we demonstrate that
VSP-LLM can more effectively recognize and translate lip movements with just 15
hours of labeled data, compared to the recent translation model trained with
433 hours of labeld data.
- Abstract(参考訳): 視覚音声処理における文脈モデリング能力は、唇運動のあいまいさに起因する最も重要な要件の1つである。
例えば、同じ唇の動きを共有し、異なる音を産み出す語であるホモフェネスは、文脈を考慮して区別することができる。
本稿では,llms (vsp-llm) を組み込んだ視覚音声処理という新しい枠組みを提案する。
具体的には、VSP-LLMは、与えられた指示がタスクの種類を制御する視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
自己教師付き視覚音声モデルを用いて、入力映像をLSMの入力潜時空間にマッピングする。
入力フレームに冗長な情報が存在することに着目し、視覚音声ユニットを用いることで、埋め込み型視覚特徴を減少させる新しい重複法を提案する。
提案手法とローランク適応器 (LoRA) を用いて, VSP-LLM を効率よく訓練することができる。
翻訳データセットであるmuavicベンチマークでは,ラベル付きデータ433時間でトレーニングされた最近の翻訳モデルと比較して,vsp-llmが15時間のラベル付きデータで唇の動きをより効果的に認識し,翻訳できることが示されている。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。