論文の概要: VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
- arxiv url: http://arxiv.org/abs/2501.01957v1
- Date: Fri, 03 Jan 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 16:38:31.667024
- Title: VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
- Title(参考訳): VITA-1.5: GPT-4oレベルリアルタイムビジョンと音声対話を目指して
- Authors: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He,
- Abstract要約: 視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
- 参考スコア(独自算出の注目度): 104.42150587640946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティの統合に重点を置いている。
しかし,マルチモーダル対話システムにおいて音声は重要な役割を担い,視覚と音声の両タスクにハイパフォーマンスを実装することは,基本的なモダリティの違いのため,依然として重要な課題である。
本稿では,視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強いだけでなく, ASR と TTS モジュールを分離することなく, 音声音声対話を効果的に実現し, マルチモーダルの応答速度を著しく向上させる。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えており, ほぼリアルタイムな視覚と音声の相互作用が可能であることを示す。
関連論文リスト
- SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering [0.0]
テキストの書き起こしなしに音声質問を処理する統合音声ビジョンモデルであるSViQAを紹介する。
LLaVAアーキテクチャに基づいて、我々のフレームワークは2つの重要なイノベーションを通じて聴覚と視覚のモダリティを橋渡しします。
SBVQAベンチマークの大規模な実験結果は、提案したSViQAの最先端性能を実証している。
論文 参考訳(メタデータ) (2025-04-01T07:15:32Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning [32.95008932216176]
マルチターンマルチモーダル対話データセットであるMDDiagを紹介する。
マルチモーダルグラウンドと推論機能を備えたMLLMであるDiagNoteについても紹介する。
論文 参考訳(メタデータ) (2025-03-10T07:32:53Z) - Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models [20.210120763433167]
本稿では,OLLMの視覚テキストコンポーネントが教師として,視覚音声コンポーネントが学生として機能する自己知識蒸留(Self-KD)トレーニング手法を提案する。
実験結果から,自己KDはOLLMの視覚音響能力を高める有効な方法であることが示された。
論文 参考訳(メタデータ) (2025-02-27T02:19:09Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。
本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。