Fugu-MT 論文翻訳(概要): AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

論文の概要: AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

arxiv url: http://arxiv.org/abs/2306.08640v2
Date: Wed, 28 Jun 2023 05:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 17:22:46.207941
Title: AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn
Title（参考訳）: AssistGPT:計画、実行、検査、学習が可能な汎用マルチモーダルアシスタント
Authors: Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou
Abstract要約: 我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。 Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
参考スコア（独自算出の注目度）: 25.510696745075688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research on Large Language Models (LLMs) has led to remarkable advancements in general NLP AI assistants. Some studies have further explored the use of LLMs for planning and invoking models or APIs to address more general multi-modal user queries. Despite this progress, complex visual-based tasks still remain challenging due to the diverse nature of visual tasks. This diversity is reflected in two aspects: 1) Reasoning paths. For many real-life applications, it is hard to accurately decompose a query simply by examining the query itself. Planning based on the specific visual content and the results of each step is usually required. 2) Flexible inputs and intermediate results. Input forms could be flexible for in-the-wild cases, and involves not only a single image or video but a mixture of videos and images, e.g., a user-view image with some reference videos. Besides, a complex reasoning process will also generate diverse multimodal intermediate results, e.g., video narrations, segmented video clips, etc. To address such general cases, we propose a multi-modal AI assistant, AssistGPT, with an interleaved code and language reasoning approach called Plan, Execute, Inspect, and Learn (PEIL) to integrate LLMs with various tools. Specifically, the Planner is capable of using natural language to plan which tool in Executor should do next based on the current reasoning progress. Inspector is an efficient memory manager to assist the Planner to feed proper visual information into a specific tool. Finally, since the entire reasoning process is complex and flexible, a Learner is designed to enable the model to autonomously explore and discover the optimal solution. We conducted experiments on A-OKVQA and NExT-QA benchmarks, achieving state-of-the-art results. Moreover, showcases demonstrate the ability of our system to handle questions far more complex than those found in the benchmarks.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の研究は、一般のNLPAIアシスタントに顕著な進歩をもたらした。いくつかの研究は、より一般的なマルチモーダルユーザクエリに対処するために、モデルやapiの計画と呼び出しにllmの使用をさらに検討している。この進歩にもかかわらず、視覚タスクの多様な性質のため、複雑な視覚ベースのタスクは依然として困難である。この多様性は2つの側面に反映されます 1)経路の推論。多くの実生活アプリケーションでは、クエリ自体を調べるだけでクエリを正確に分解することは困難である。特定の視覚内容と各ステップの結果に基づいた計画が通常必要である。 2)柔軟な入力と中間結果。入力フォームは、野生のケースでは柔軟で、単一の画像やビデオだけでなく、ビデオや画像の混合物(たとえば、ユーザービュー画像といくつかの参照ビデオ)も含む。さらに、複雑な推論プロセスは、ビデオナレーションやセグメント化されたビデオクリップなど、さまざまなマルチモーダル中間結果を生成する。このような一般的なケースに対処するため,我々は,plan,execute,inspect,learning(peil)と呼ばれるインターリーブされたコードと言語推論アプローチを備えたマルチモーダルaiアシスタントである assistgpt を提案する。具体的には、Plannerは自然言語を使ってExecutorのどのツールが次にすべきかを、現在の推論の進捗に基づいて計画することができる。インスペクタは、プランナーが特定のツールに適切な視覚情報を供給するのを補助する効率的なメモリマネージャである。最後に、推論プロセス全体が複雑で柔軟であるため、学習者はモデルが最適な解を自律的に探索し発見できるように設計されている。我々は, A-OKVQA と NExT-QA のベンチマーク実験を行った。さらに,本システムでは,ベンチマークよりもはるかに複雑な質問を処理可能であることを示す。

関連論文リスト

Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-08-01T06:39:15Z)
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.14137626882127]
大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文参考訳（メタデータ） (2025-05-27T05:50:25Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。 InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。 InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文参考訳（メタデータ） (2025-01-21T15:55:06Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。また、ICL(In-context Learning)機能も備えている。複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文参考訳（メタデータ） (2024-07-22T15:22:34Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。 AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2023-06-13T20:50:22Z)
MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文参考訳（メタデータ） (2023-02-16T04:00:03Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。