論文の概要: DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.08392v1
- Date: Tue, 16 Jan 2024 14:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:47:32.838543
- Title: DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models
- Title(参考訳): doraemongpt: 大規模言語モデルによる動的シーンの理解に向けて
- Authors: Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang
- Abstract要約: DoraemonGPTは、大規模言語モデル(LLM)によって駆動される、動的ビデオタスクを処理する包括的なシステムである。
DoraemonGPTは、質問/タスクのあるビデオが与えられたら、入力されたビデオを大量のコンテンツで変換し、シンボリックメモリに変換して、textittask関連の属性を格納する。
特殊なドメインに関しては,LLMには内部知識が限られていることを認識し,外部知識を評価し,異なるドメインにわたるタスクに対処するためのプラグイン・アンド・プレイ・ツールが組み込まれている。
- 参考スコア(独自算出の注目度): 78.43468551763303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of AI agents is advancing at an unprecedented rate due to the
capabilities of large language models (LLMs). However, LLM-driven visual agents
mainly focus on solving tasks for the image modality, which limits their
ability to understand the dynamic nature of the real world, making it still far
from real-life applications, e.g., guiding students in laboratory experiments
and identifying their mistakes. Considering the video modality better reflects
the ever-changing and perceptually intensive nature of real-world scenarios, we
devise DoraemonGPT, a comprehensive and conceptually elegant system driven by
LLMs to handle dynamic video tasks. Given a video with a question/task,
DoraemonGPT begins by converting the input video with massive content into a
symbolic memory that stores \textit{task-related} attributes. This structured
representation allows for spatial-temporal querying and reasoning by sub-task
tools, resulting in concise and relevant intermediate results. Recognizing that
LLMs have limited internal knowledge when it comes to specialized domains
(e.g., analyzing the scientific principles underlying experiments), we
incorporate plug-and-play tools to assess external knowledge and address tasks
across different domains. Moreover, we introduce a novel LLM-driven planner
based on Monte Carlo Tree Search to efficiently explore the large planning
space for scheduling various tools. The planner iteratively finds feasible
solutions by backpropagating the result's reward, and multiple solutions can be
summarized into an improved final answer. We extensively evaluate DoraemonGPT
in dynamic scenes and provide in-the-wild showcases demonstrating its ability
to handle more complex questions than previous studies.
- Abstract(参考訳): AIエージェントの分野は、大きな言語モデル(LLM)の能力のため、前例のない速度で進んでいる。
しかし、LLM駆動の視覚エージェントは主に画像モダリティの課題の解決に重点を置いており、現実世界のダイナミックな性質を理解する能力を制限する。
ビデオモダリティが現実世界のシナリオの絶え間なく変化し、知覚的に集約的な性質を反映していることを考えると、doraemongptはllmによって駆動される包括的かつ概念的にエレガントなシステムで、ダイナミックなビデオタスクを処理する。
質問/タスクのあるビデオの場合、DoraemonGPTは入力されたビデオを大量のコンテンツで変換して、 \textit{task-related}属性を格納するシンボリックメモリに変換する。
この構造化表現は、サブタスクツールによる時空間クエリと推論を可能にし、簡潔で関連する中間結果をもたらす。
特殊なドメイン(実験の基礎となる科学原理の分析など)に関して、LLMには内部知識が限られていることを認識し、外部知識を評価し、異なるドメインにわたるタスクに対処するためのプラグアンドプレイツールを組み込む。
さらに,モンテカルロ木探索に基づく新しいLCM型プランナを導入し,多様なツールをスケジューリングするための大規模計画空間を効率的に探索する。
プランナーは、結果の報酬をバックプロパゲートすることで実現可能な解決策を反復的に見つけ、複数のソリューションを改善された最終回答にまとめることができる。
動的シーンにおけるドラエモンGPTを広く評価し,従来の研究よりも複雑な問題を扱う能力を示した。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。