論文の概要: AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn
- arxiv url: http://arxiv.org/abs/2306.08640v2
- Date: Wed, 28 Jun 2023 05:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:22:46.207941
- Title: AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn
- Title(参考訳): AssistGPT:計画、実行、検査、学習が可能な汎用マルチモーダルアシスタント
- Authors: Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan
Fan, Mike Zheng Shou
- Abstract要約: 我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
- 参考スコア(独自算出の注目度): 25.510696745075688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research on Large Language Models (LLMs) has led to remarkable
advancements in general NLP AI assistants. Some studies have further explored
the use of LLMs for planning and invoking models or APIs to address more
general multi-modal user queries. Despite this progress, complex visual-based
tasks still remain challenging due to the diverse nature of visual tasks. This
diversity is reflected in two aspects: 1) Reasoning paths. For many real-life
applications, it is hard to accurately decompose a query simply by examining
the query itself. Planning based on the specific visual content and the results
of each step is usually required. 2) Flexible inputs and intermediate results.
Input forms could be flexible for in-the-wild cases, and involves not only a
single image or video but a mixture of videos and images, e.g., a user-view
image with some reference videos. Besides, a complex reasoning process will
also generate diverse multimodal intermediate results, e.g., video narrations,
segmented video clips, etc. To address such general cases, we propose a
multi-modal AI assistant, AssistGPT, with an interleaved code and language
reasoning approach called Plan, Execute, Inspect, and Learn (PEIL) to integrate
LLMs with various tools. Specifically, the Planner is capable of using natural
language to plan which tool in Executor should do next based on the current
reasoning progress. Inspector is an efficient memory manager to assist the
Planner to feed proper visual information into a specific tool. Finally, since
the entire reasoning process is complex and flexible, a Learner is designed to
enable the model to autonomously explore and discover the optimal solution. We
conducted experiments on A-OKVQA and NExT-QA benchmarks, achieving
state-of-the-art results. Moreover, showcases demonstrate the ability of our
system to handle questions far more complex than those found in the benchmarks.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の研究は、一般のNLPAIアシスタントに顕著な進歩をもたらした。
いくつかの研究は、より一般的なマルチモーダルユーザクエリに対処するために、モデルやapiの計画と呼び出しにllmの使用をさらに検討している。
この進歩にもかかわらず、視覚タスクの多様な性質のため、複雑な視覚ベースのタスクは依然として困難である。
この多様性は2つの側面に反映されます
1)経路の推論。
多くの実生活アプリケーションでは、クエリ自体を調べるだけでクエリを正確に分解することは困難である。
特定の視覚内容と各ステップの結果に基づいた計画が通常必要である。
2)柔軟な入力と中間結果。
入力フォームは、野生のケースでは柔軟で、単一の画像やビデオだけでなく、ビデオや画像の混合物(たとえば、ユーザービュー画像といくつかの参照ビデオ)も含む。
さらに、複雑な推論プロセスは、ビデオナレーションやセグメント化されたビデオクリップなど、さまざまなマルチモーダル中間結果を生成する。
このような一般的なケースに対処するため,我々は,plan,execute,inspect,learning(peil)と呼ばれるインターリーブされたコードと言語推論アプローチを備えたマルチモーダルaiアシスタントである assistgpt を提案する。
具体的には、Plannerは自然言語を使ってExecutorのどのツールが次にすべきかを、現在の推論の進捗に基づいて計画することができる。
インスペクタは、プランナーが特定のツールに適切な視覚情報を供給するのを補助する効率的なメモリマネージャである。
最後に、推論プロセス全体が複雑で柔軟であるため、学習者はモデルが最適な解を自律的に探索し発見できるように設計されている。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行った。
さらに,本システムでは,ベンチマークよりもはるかに複雑な質問を処理可能であることを示す。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。