論文の概要: Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators
- arxiv url: http://arxiv.org/abs/2407.14834v1
- Date: Sat, 20 Jul 2024 10:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:42:12.727239
- Title: Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators
- Title(参考訳): VLMはビデオでアクション認識に使えるか?LLMは視覚共鳴コーディネータ
- Authors: Harsh Lunia,
- Abstract要約: 本稿では,大規模言語モデル (LLM) が,自然言語通信によって複数の視覚言語モデル (VLM) を効率的にコーディネートする方法を示す。
本研究は,同手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements have introduced multiple vision-language models (VLMs) demonstrating impressive commonsense reasoning across various domains. Despite their individual capabilities, the potential of synergizing these complementary VLMs remains underexplored. The Cola Framework addresses this by showcasing how a large language model (LLM) can efficiently coordinate multiple VLMs through natural language communication, leveraging their distinct strengths. We have verified this claim on the challenging A-OKVQA dataset, confirming the effectiveness of such coordination. Building on this, our study investigates whether the same methodology can be applied to surveillance videos for action recognition. Specifically, we explore if leveraging the combined knowledge base of VLMs and LLM can effectively deduce actions from a video when presented with only a few selectively important frames and minimal temporal information. Our experiments demonstrate that LLM, when coordinating different VLMs, can successfully recognize patterns and deduce actions in various scenarios despite the weak temporal signals. However, our findings suggest that to enhance this approach as a viable alternative solution, integrating a stronger temporal signal and exposing the models to slightly more frames would be beneficial.
- Abstract(参考訳): 近年、複数の視覚言語モデル (VLM) が登場し、様々な領域において印象的な常識的推論がなされている。
個々の能力にもかかわらず、これらの相補的なVLMを相乗化する可能性は未解明のままである。
Cola Frameworkは、大規模言語モデル(LLM)が自然言語通信を通じて複数のVLMを効率的にコーディネートする方法を示し、それぞれの強みを活用している。
我々はこの主張をA-OKVQAデータセット上で検証し、これらの調整の有効性を確認した。
本研究は,この手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
具体的には、VLMとLLMの複合知識ベースを利用することで、選択的に重要なフレームと最小時間情報のみを提示した場合に、ビデオからアクションを効果的に引き出すことができるかどうかを検討する。
実験により,LLMは異なるVLMをコーディネートする場合,パターンの認識に成功し,時間的信号が弱いにもかかわらず,様々なシナリオにおける動作を推定できることが示された。
しかし,本手法を有効な代替ソリューションとして拡張し,より強力な時間信号を統合し,わずかに多くのフレームにモデルを露出させることが有用であることが示唆された。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。
これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。
LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-21T04:39:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-23T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。