論文の概要: VIoTGPT: Learning to Schedule Vision Tools towards Intelligent Video
Internet of Things
- arxiv url: http://arxiv.org/abs/2312.00401v1
- Date: Fri, 1 Dec 2023 07:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:15:55.465092
- Title: VIoTGPT: Learning to Schedule Vision Tools towards Intelligent Video
Internet of Things
- Title(参考訳): viotgpt: インテリジェントビデオモノのインターネットに向けたビジョンツールの学習
- Authors: Yaoyao Zhong, Mengshi Qi, Rui Wang, Yuhan Qiu, Yang Zhang, Huadong Ma
- Abstract要約: Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
VIoTの細粒化と相互関連ツール使用による課題に対処するため、VIoTGPTを構築した。
- 参考スコア(独自算出の注目度): 35.97876618109385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Internet of Things (VIoT) has shown full potential in collecting an
unprecedented volume of video data. Learning to schedule perceiving models and
analyzing the collected videos intelligently will be potential sparks for VIoT.
In this paper, to address the challenges posed by the fine-grained and
interrelated vision tool usage of VIoT, we build VIoTGPT, the framework based
on LLMs to correctly interact with humans, query knowledge videos, and invoke
vision models to accomplish complicated tasks. To support VIoTGPT and related
future works, we meticulously crafted the training dataset and established
benchmarks involving 11 representative vision models across three categories
based on semi-automatic annotations. To guide LLM to act as the intelligent
agent towards intelligent VIoT, we resort to ReAct instruction tuning based on
the collected VIoT dataset to learn the tool capability. Quantitative and
qualitative experimental results and analyses demonstrate the effectiveness of
VIoTGPT.
- Abstract(参考訳): Video Internet of Things(VIoT)は、前例のない量のビデオデータを収集する可能性を示している。
モデルを認識し、収集した動画をインテリジェントに分析する学習は、viotにとって潜在的な火花となる。
本稿では,VIoTの細粒度・相互関連視覚ツール利用による課題に対処するため,人間と正しく対話し,知識映像をクエリし,視覚モデルを実行して複雑なタスクを遂行するLLMをベースとしたフレームワークであるVIoTGPTを構築した。
VIoTGPTと関連する今後の作業をサポートするため、トレーニングデータセットを慎重に作成し、セミオートマチックアノテーションに基づいた3つのカテゴリにわたる11の代表的な視覚モデルを含むベンチマークを確立した。
LLMをインテリジェントなVIoTエージェントとして機能させるために、収集したVIoTデータセットに基づいたReAct命令チューニングを使用して、ツール機能を学ぶ。
定量的および定性的な実験結果と分析により, VIoTGPTの有効性が示された。
関連論文リスト
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - FLAME: Learning to Navigate with Multimodal LLM in Urban Environments [12.428873051106702]
大規模言語モデル(LLM)は視覚・言語ナビゲーション(VLN)タスクの可能性を実証している。
LLMは専門的なナビゲーションタスクに苦労し、専門的なVLNモデルと比較すると、最適以下の性能が得られる。
本稿では,都市VLNタスク用に設計された新しいマルチモーダルLLMエージェントとアーキテクチャであるFLAMEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T17:57:46Z) - VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool [21.182745175241894]
我々は,能動的学習パラダイムの下で,機械と人間の専門家を組み合わせた自動アノテーションツールを開発した。
MLLMの複雑な推論能力を最大化するために,CoTを利用して収集したデータセットに基づくベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-07T13:10:23Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。