論文の概要: VIoTGPT: Learning to Schedule Vision Tools in LLMs towards Intelligent Video Internet of Things
- arxiv url: http://arxiv.org/abs/2312.00401v2
- Date: Sun, 22 Dec 2024 17:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:30.373027
- Title: VIoTGPT: Learning to Schedule Vision Tools in LLMs towards Intelligent Video Internet of Things
- Title(参考訳): VIoTGPT: インテリジェントなモノのインターネットに向けたLCMのビジョンツールのスケジュール学習
- Authors: Yaoyao Zhong, Mengshi Qi, Rui Wang, Yuhan Qiu, Yang Zhang, Huadong Ma,
- Abstract要約: Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
ドメイン固有の知覚モデルをどのようにスケジュールし、収集したビデオを均一に、効率的に、そして特にインテリジェントに分析するかは、難しい。
我々は、人間と正しく対話し、知識動画をクエリし、視覚モデルを実行し、マルチメディアデータを協調的に分析するLLMに基づくフレームワークであるVIoTGPTを構築した。
- 参考スコア(独自算出の注目度): 33.95453848194472
- License:
- Abstract: Video Internet of Things (VIoT) has shown full potential in collecting an unprecedented volume of video data. How to schedule the domain-specific perceiving models and analyze the collected videos uniformly, efficiently, and especially intelligently to accomplish complicated tasks is challenging. To address the challenge, we build VIoTGPT, the framework based on LLMs to correctly interact with humans, query knowledge videos, and invoke vision models to analyze multimedia data collaboratively. To support VIoTGPT and related future works, we meticulously crafted the VIoT-Tool dataset, including the training dataset and the benchmark involving 11 representative vision models across three categories based on semi-automatic annotations. To guide LLM to act as the intelligent agent towards intelligent VIoT, we resort to the ReAct instruction tuning method based on VIoT-Tool to learn the tool capability. Quantitative and qualitative experiments and analyses demonstrate the effectiveness of VIoTGPT. We believe VIoTGPT contributes to improving human-centered experiences in VIoT applications. The project website is https://github.com/zhongyy/VIoTGPT.
- Abstract(参考訳): Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
複雑なタスクを達成するために、ドメイン固有の知覚モデルをスケジュールし、収集したビデオを一様、効率的に、特にインテリジェントに分析する方法は難しい。
この課題に対処するため、私たちは、人間と正しく対話し、知識ビデオを求め、視覚モデルを実行し、マルチメディアデータを協調して分析するLLMに基づくフレームワークであるVIoTGPTを構築した。
VIoTGPTと関連する今後の作業をサポートするために、トレーニングデータセットを含むVIoT-Toolデータセットと、セミオートマティックアノテーションに基づいた3つのカテゴリにわたる11の代表的なビジョンモデルを含むベンチマークを慎重に作成しました。
LLMをインテリジェントなVIoTエージェントとして機能させるためには、VIoT-Toolに基づくReAct命令チューニング手法を用いて、ツール能力の学習を行う。
VIoTGPTの有効性を定量的かつ定性的な実験と分析により実証した。
VIoTGPTは、VIoTアプリケーションにおける人間中心のエクスペリエンス向上に寄与すると考えています。
プロジェクトのWebサイトはhttps://github.com/zhongyy/VIoTGPTである。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - The Embodied World Model Based on LLM with Visual Information and Prediction-Oriented Prompts [19.00518906047691]
VOYAGERは、マインクラフトの世界における自律的な探索を可能にするLLMベースの組み込みAIとしてよく知られている。
視覚データの未使用化や世界モデルとしての機能不足といった問題がある。
考案されたプロンプトが世界モデルとしてのLLMの機能を引き出す可能性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-02T14:50:01Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。