Fugu-MT 論文翻訳(概要): What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

論文の概要: What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2406.04615v1
Date: Fri, 7 Jun 2024 03:55:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 15:39:08.280868
Title: What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models
Title（参考訳）: MLLMは何を聴くか?マルチモーダル大言語モデルにおけるテキストと音声成分による推論の検討
Authors: Enis Berk Çoban, Michael I. Mandel, Johanna Devaney,
Abstract要約: 音声キャプション/分類実験を通じて、音声MLLMは、音声キャプションを生成する際に、LLMのテキストベースの推論を完全に活用できないことを示す。また,LLMからオーディオエンコーダへの推論経路を分離するなど,聴覚情報とテキスト情報を別々に表現するMLLMが原因である可能性についても検討する。
参考スコア（独自算出の注目度）: 6.313516199029267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities, notably in connecting ideas and adhering to logical rules to solve problems. These models have evolved to accommodate various data modalities, including sound and images, known as multimodal LLMs (MLLMs), which are capable of describing images or sound recordings. Previous work has demonstrated that when the LLM component in MLLMs is frozen, the audio or visual encoder serves to caption the sound or image input facilitating text-based reasoning with the LLM component. We are interested in using the LLM's reasoning capabilities in order to facilitate classification. In this paper, we demonstrate through a captioning/classification experiment that an audio MLLM cannot fully leverage its LLM's text-based reasoning when generating audio captions. We also consider how this may be due to MLLMs separately representing auditory and textual information such that it severs the reasoning pathway from the LLM to the audio encoder.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にアイデアの結合や問題解決のための論理ルールの固執において、顕著な推論能力を示している。これらのモデルは、画像や録音を記述できるマルチモーダルLSM(Multimodal LLM)として知られる、音や画像を含む様々なデータモダリティに対応するように進化してきた。 MLLMのLLMコンポーネントが凍結されると、オーディオまたはビジュアルエンコーダは、LLMコンポーネントによるテキストベースの推論を容易にする音声または画像入力をキャプションする。分類を容易にするために LLM の推論機能を利用することに興味がある。本稿では、音声キャプション/分類実験を通じて、音声キャプションを生成する際に、音声MLLMがLLMのテキストベースの推論を完全に活用できないことを示す。また,MLLMが聴覚情報とテキスト情報を別々に表現し,LLMからオーディオエンコーダへの推論経路を把握していることも考慮する。

関連論文リスト

PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs [16.820927353576774]
大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-12T07:23:07Z)
SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文参考訳（メタデータ） (2025-05-30T17:59:19Z)
Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文参考訳（メタデータ） (2025-05-04T23:46:01Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。 We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。このLVLMの不均衡は幻覚の原因となる可能性がある。本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-31T17:46:57Z)
Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文参考訳（メタデータ） (2024-06-10T02:04:28Z)
Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文参考訳（メタデータ） (2023-12-30T14:20:04Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文参考訳（メタデータ） (2023-09-19T11:10:50Z)
Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。 MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文参考訳（メタデータ） (2023-07-21T08:39:15Z)
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文参考訳（メタデータ） (2023-06-30T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。