論文の概要: VIoTGPT: Learning to Schedule Vision Tools towards Intelligent Video
Internet of Things
- arxiv url: http://arxiv.org/abs/2312.00401v1
- Date: Fri, 1 Dec 2023 07:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:15:55.465092
- Title: VIoTGPT: Learning to Schedule Vision Tools towards Intelligent Video
Internet of Things
- Title(参考訳): viotgpt: インテリジェントビデオモノのインターネットに向けたビジョンツールの学習
- Authors: Yaoyao Zhong, Mengshi Qi, Rui Wang, Yuhan Qiu, Yang Zhang, Huadong Ma
- Abstract要約: Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
VIoTの細粒化と相互関連ツール使用による課題に対処するため、VIoTGPTを構築した。
- 参考スコア(独自算出の注目度): 35.97876618109385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Internet of Things (VIoT) has shown full potential in collecting an
unprecedented volume of video data. Learning to schedule perceiving models and
analyzing the collected videos intelligently will be potential sparks for VIoT.
In this paper, to address the challenges posed by the fine-grained and
interrelated vision tool usage of VIoT, we build VIoTGPT, the framework based
on LLMs to correctly interact with humans, query knowledge videos, and invoke
vision models to accomplish complicated tasks. To support VIoTGPT and related
future works, we meticulously crafted the training dataset and established
benchmarks involving 11 representative vision models across three categories
based on semi-automatic annotations. To guide LLM to act as the intelligent
agent towards intelligent VIoT, we resort to ReAct instruction tuning based on
the collected VIoT dataset to learn the tool capability. Quantitative and
qualitative experimental results and analyses demonstrate the effectiveness of
VIoTGPT.
- Abstract(参考訳): Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
モデルを認識し、収集した動画をインテリジェントに分析する学習は、viotにとって潜在的な火花となる。
本稿では,VIoTの細粒度・相互関連視覚ツール利用による課題に対処するため,人間と正しく対話し,知識映像をクエリし,視覚モデルを実行して複雑なタスクを遂行するLLMをベースとしたフレームワークであるVIoTGPTを構築した。
VIoTGPTと関連する今後の作業をサポートするため、トレーニングデータセットを慎重に作成し、セミオートマチックアノテーションに基づいた3つのカテゴリにわたる11の代表的な視覚モデルを含むベンチマークを確立した。
LLMをインテリジェントなVIoTエージェントとして機能させるために、収集したVIoTデータセットに基づいたReAct命令チューニングを使用して、ツール機能を学ぶ。
定量的および定性的な実験結果と分析により, VIoTGPTの有効性が示された。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - The Embodied World Model Based on LLM with Visual Information and Prediction-Oriented Prompts [19.00518906047691]
VOYAGERは、マインクラフトの世界における自律的な探索を可能にするLLMベースの組み込みAIとしてよく知られている。
視覚データの未使用化や世界モデルとしての機能不足といった問題がある。
考案されたプロンプトが世界モデルとしてのLLMの機能を引き出す可能性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-02T14:50:01Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。