Fugu-MT 論文翻訳(概要): Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

論文の概要: Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

arxiv url: http://arxiv.org/abs/2412.09501v1
Date: Thu, 12 Dec 2024 17:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.199119
Title: Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
Title（参考訳）: Lyra: Omni-Cognitionのための効率的で音声中心のフレームワーク
Authors: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia,
Abstract要約: Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。 Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
参考スコア（独自算出の注目度）: 57.131546757903834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)が進化するにつれて、より汎用的で効率的なAIの要求を満たすために、単一ドメイン機能を超えて拡張することが不可欠である。しかし、以前のオムニモデルでは、マルチモーダリティとの統合を無視して、スピーチを十分に検討した。音声理解,音声理解,相互モダリティ効率,シームレスな音声対話など,マルチモーダル能力を向上させる効率的なMLLMであるLyraを紹介する。効率性と発話中心の能力を達成するために,Lyraは,(1)既存のオープンソース大規模モデルと提案されたマルチモーダルLoRAを活用して,トレーニングコストとデータ要求を低減し,(2)潜在多モーダル正規化器と抽出器を用いて音声と他のモダリティの関係を強化し,モデル性能を向上させる,(3)150万のマルチモーダル(言語,視覚,音声)データサンプルと12Kの音声サンプルを含む高品質で広範なデータセットを構築し,Lyraが複雑な長い音声入力を処理し,より堅牢なオムニ認識を実現する,という3つの戦略を採用している。他のOmni-methodと比較すると、Lyraは様々な視覚言語、視覚音声、音声言語ベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。

関連論文リスト

Aya Vision: Advancing the Frontier of Multilingual Multimodality [15.981889066681424]
高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
論文参考訳（メタデータ） (2025-05-13T17:03:48Z)
Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation Learning [2.56061946132533]
マルチモーダル表現学習を強化するために,コントラスト言語イメージ事前学習(CLIP)アーキテクチャを拡張するフレームワークであるSynergy-CLIPを提案する。個々のモダリティをバニラCLIPに適応することに集中する既存の方法とは異なり、Synergy-CLIPは3つのモダリティにまたがる潜伏情報を等しく整列してキャプチャする。 VGG-sound+は、視覚、テキスト、音声データの等スケール表現を提供するために設計された3つのモーダルデータセットである。
論文参考訳（メタデータ） (2025-04-30T07:14:58Z)
Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文参考訳（メタデータ） (2025-01-26T02:19:03Z)
Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文参考訳（メタデータ） (2024-12-20T15:43:09Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Ocean-omni: To Understand the World with Omni-modality [28.306965534325904]
Ocean-omniは、最初のオープンソース 7B Multimodal Large Language Model (MLLM) である。世界初のオープンソース7Bマルチモーダル大言語モデル(MLLM)であるOcean-omniを紹介する。
論文参考訳（メタデータ） (2024-10-11T06:44:31Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文参考訳（メタデータ） (2024-06-26T12:45:43Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文参考訳（メタデータ） (2022-02-24T15:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。