論文の概要: AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn
- arxiv url: http://arxiv.org/abs/2306.08640v2
- Date: Wed, 28 Jun 2023 05:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:22:46.207941
- Title: AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn
- Title(参考訳): AssistGPT:計画、実行、検査、学習が可能な汎用マルチモーダルアシスタント
- Authors: Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan
Fan, Mike Zheng Shou
- Abstract要約: 我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
- 参考スコア(独自算出の注目度): 25.510696745075688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research on Large Language Models (LLMs) has led to remarkable
advancements in general NLP AI assistants. Some studies have further explored
the use of LLMs for planning and invoking models or APIs to address more
general multi-modal user queries. Despite this progress, complex visual-based
tasks still remain challenging due to the diverse nature of visual tasks. This
diversity is reflected in two aspects: 1) Reasoning paths. For many real-life
applications, it is hard to accurately decompose a query simply by examining
the query itself. Planning based on the specific visual content and the results
of each step is usually required. 2) Flexible inputs and intermediate results.
Input forms could be flexible for in-the-wild cases, and involves not only a
single image or video but a mixture of videos and images, e.g., a user-view
image with some reference videos. Besides, a complex reasoning process will
also generate diverse multimodal intermediate results, e.g., video narrations,
segmented video clips, etc. To address such general cases, we propose a
multi-modal AI assistant, AssistGPT, with an interleaved code and language
reasoning approach called Plan, Execute, Inspect, and Learn (PEIL) to integrate
LLMs with various tools. Specifically, the Planner is capable of using natural
language to plan which tool in Executor should do next based on the current
reasoning progress. Inspector is an efficient memory manager to assist the
Planner to feed proper visual information into a specific tool. Finally, since
the entire reasoning process is complex and flexible, a Learner is designed to
enable the model to autonomously explore and discover the optimal solution. We
conducted experiments on A-OKVQA and NExT-QA benchmarks, achieving
state-of-the-art results. Moreover, showcases demonstrate the ability of our
system to handle questions far more complex than those found in the benchmarks.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の研究は、一般のNLPAIアシスタントに顕著な進歩をもたらした。
いくつかの研究は、より一般的なマルチモーダルユーザクエリに対処するために、モデルやapiの計画と呼び出しにllmの使用をさらに検討している。
この進歩にもかかわらず、視覚タスクの多様な性質のため、複雑な視覚ベースのタスクは依然として困難である。
この多様性は2つの側面に反映されます
1)経路の推論。
多くの実生活アプリケーションでは、クエリ自体を調べるだけでクエリを正確に分解することは困難である。
特定の視覚内容と各ステップの結果に基づいた計画が通常必要である。
2)柔軟な入力と中間結果。
入力フォームは、野生のケースでは柔軟で、単一の画像やビデオだけでなく、ビデオや画像の混合物(たとえば、ユーザービュー画像といくつかの参照ビデオ)も含む。
さらに、複雑な推論プロセスは、ビデオナレーションやセグメント化されたビデオクリップなど、さまざまなマルチモーダル中間結果を生成する。
このような一般的なケースに対処するため,我々は,plan,execute,inspect,learning(peil)と呼ばれるインターリーブされたコードと言語推論アプローチを備えたマルチモーダルaiアシスタントである assistgpt を提案する。
具体的には、Plannerは自然言語を使ってExecutorのどのツールが次にすべきかを、現在の推論の進捗に基づいて計画することができる。
インスペクタは、プランナーが特定のツールに適切な視覚情報を供給するのを補助する効率的なメモリマネージャである。
最後に、推論プロセス全体が複雑で柔軟であるため、学習者はモデルが最適な解を自律的に探索し発見できるように設計されている。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行った。
さらに,本システムでは,ベンチマークよりもはるかに複雑な質問を処理可能であることを示す。
関連論文リスト
- DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models [84.6451394629312]
実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。