論文の概要: DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.08392v2
- Date: Mon, 19 Feb 2024 09:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:29:47.170032
- Title: DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language
Models
- Title(参考訳): doraemongpt: 大規模言語モデルによる動的シーンの理解に向けて
- Authors: Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang
- Abstract要約: 我々は,動的ビデオタスクを扱うLLMによって駆動される包括的かつ概念的にエレガントなシステムであるドラモンGPTを考案した。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
- 参考スコア(独自算出の注目度): 78.43468551763303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent LLM-driven visual agents mainly focus on solving image-based tasks,
which limits their ability to understand dynamic scenes, making it far from
real-life applications like guiding students in laboratory experiments and
identifying their mistakes. Considering the video modality better reflects the
ever-changing nature of real-world scenarios, we devise DoraemonGPT, a
comprehensive and conceptually elegant system driven by LLMs to handle dynamic
video tasks. Given a video with a question/task, DoraemonGPT begins by
converting the input video into a symbolic memory that stores task-related
attributes. This structured representation allows for spatial-temporal querying
and reasoning by well-designed sub-task tools, resulting in concise
intermediate results. Recognizing that LLMs have limited internal knowledge
when it comes to specialized domains (e.g., analyzing the scientific principles
underlying experiments), we incorporate plug-and-play tools to assess external
knowledge and address tasks across different domains. Moreover, a novel
LLM-driven planner based on Monte Carlo Tree Search is introduced to explore
the large planning space for scheduling various tools. The planner iteratively
finds feasible solutions by backpropagating the result's reward, and multiple
solutions can be summarized into an improved final answer. We extensively
evaluate DoraemonGPT's effectiveness on three benchmarks and challenging
in-the-wild scenarios. Code will be released at:
https://github.com/z-x-yang/DoraemonGPT.
- Abstract(参考訳): 最近のllm駆動のビジュアルエージェントは、主に画像ベースのタスクの解決にフォーカスしており、ダイナミックなシーンを理解する能力が制限されている。
ビデオのモダリティは、現実のシナリオの変わらずの性質を反映しているので、動的ビデオタスクを扱うためにLLMによって駆動される包括的で概念的にエレガントなシステムであるDoraemonGPTを考案する。
質問/タスクのあるビデオの場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
この構造化表現は、よく設計されたサブタスクツールによる時空間クエリと推論を可能にし、簡潔な中間結果をもたらす。
特殊なドメイン(実験の基礎となる科学原理の分析など)に関して、LLMには内部知識が限られていることを認識し、外部知識を評価し、異なるドメインにわたるタスクに対処するためのプラグアンドプレイツールを組み込む。
さらに,モンテカルロ木探索に基づく新しいLCM型プランナを導入し,様々なツールをスケジューリングするための大規模計画空間を探索する。
プランナーは、結果の報酬をバックプロパゲートすることで実現可能な解決策を反復的に見つけ、複数のソリューションを改善された最終回答にまとめることができる。
3つのベンチマークでDoraemonGPTの有効性を広く評価した。
コードは、https://github.com/z-x-yang/DoraemonGPTでリリースされる。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric
Videos [17.001453726107467]
エゴセントリックビデオ自然言語クエリ(NLQ)タスクは、エゴセントリックビデオ内の時間ウィンドウをローカライズする。
本稿では、複数の事前学習モデルを用いて、広範囲なエゴセントリックなビデオコンテンツからの問い合わせに応答する新しいフレームワークであるLifelongMemoryを紹介する。
実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合する性能を示す。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。