論文の概要: SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization
- arxiv url: http://arxiv.org/abs/2412.16771v1
- Date: Sat, 21 Dec 2024 20:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:32.896553
- Title: SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization
- Title(参考訳): SilVar: 視覚的質問応答と物体定位を推論する音声駆動型マルチモーダルモデル
- Authors: Tan-Hanh Pham, Hoang-Nam Le, Phu-Vinh Nguyen, Chris Ngo, Truong-Son Hy,
- Abstract要約: SilVarは、視覚的質問応答における推論に音声命令を使用する、新しいエンドツーエンドマルチモーダルモデルである。
そこで本研究では,オブジェクトローカライゼーションのための音声ベースの推論タスクを用いて,モデルに挑戦するデータセットを提案する。
実験の結果,SilVarは音声による指示の難しさにもかかわらず,MMMUとScienceQAベンチマークでSOTA性能を達成した。
- 参考スコア(独自算出の注目度): 1.2932412290302258
- License:
- Abstract: Visual Language Models have demonstrated remarkable capabilities across tasks, including visual question answering and image captioning. However, most models rely on text-based instructions, limiting their effectiveness in human-machine interactions. Moreover, the quality of language models depends on reasoning and prompting techniques, such as COT, which remain underexplored when using speech instructions. To address these challenges, we propose SilVar, a novel end-to-end multimodal model that uses speech instructions for reasoning in visual question answering. In addition, we investigate reasoning techniques with levels including conversational, simple, and complex speech instruction. SilVar is built upon CLIP, Whisper, and LLaMA 3.1-8B, enabling intuitive interactions by allowing users to provide verbal or text instructions. To this end, we introduce a dataset designed to challenge models with speech-based reasoning tasks for object localization. This dataset enhances the model ability to process and explain visual scenes from spoken input, moving beyond object recognition to reasoning-based interactions. The experiments show that SilVar achieves SOTA performance on the MMMU and ScienceQA benchmarks despite the challenge of speech-based instructions. We believe SilVar will inspire next-generation multimodal reasoning models, toward expert artificial general intelligence. Our code and dataset are available here.
- Abstract(参考訳): 視覚言語モデルは、視覚的な質問応答や画像キャプションなど、タスク間で顕著な機能を示している。
しかし、ほとんどのモデルはテキストベースの命令に依存しており、人間と機械の相互作用における有効性を制限している。
さらに、言語モデルの品質は、音声命令を使用する際に未探索のままであるCOTのような推論と促進技術に依存している。
これらの課題に対処するために、視覚的質問応答における推論に音声命令を用いる新しいエンドツーエンドマルチモーダルモデルであるSilVarを提案する。
さらに,会話,簡単な,複雑な音声指導を含むレベルの推論手法についても検討する。
SilVarはCLIP、Whisper、LLaMA 3.1-8B上に構築されており、ユーザーが音声やテキストの指示を行えるようにすることで直感的な対話を可能にする。
そこで本研究では,オブジェクトローカライゼーションのための音声ベースの推論タスクを用いて,モデルに挑戦するデータセットを提案する。
このデータセットは、オブジェクト認識から推論に基づくインタラクションに移行することで、音声入力から視覚シーンを処理および説明するモデル能力を向上する。
実験の結果,SilVarは音声による指示の難しさにもかかわらず,MMMUおよびScienceQAベンチマークでSOTA性能を達成することがわかった。
われわれはSilVarが次世代のマルチモーダル推論モデルに刺激を与えると信じている。
コードとデータセットはここにある。
関連論文リスト
- SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning [43.71388370559826]
本稿では,話者と韻律情報の理解を高めるために,複数話者の発話スタイルのキャプションタスクを提案する。
大規模言語モデルを用いて、多話者音声の記述を生成する。
このキャプションタスクで事前学習を行い,指導訓練を行った。
論文 参考訳(メタデータ) (2024-08-25T17:05:26Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal
Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。
我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文 参考訳(メタデータ) (2023-05-18T14:23:25Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。