論文の概要: AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent
- arxiv url: http://arxiv.org/abs/2306.08129v3
- Date: Thu, 2 Nov 2023 07:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:19:25.140064
- Title: AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent
- Title(参考訳): AVIS:大規模言語モデルエージェントによる自律的な視覚情報検索
- Authors: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A
Ross, Cordelia Schmid, Alireza Fathi
- Abstract要約: 本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 123.75169211547149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an autonomous information seeking visual question
answering framework, AVIS. Our method leverages a Large Language Model (LLM) to
dynamically strategize the utilization of external tools and to investigate
their outputs, thereby acquiring the indispensable knowledge needed to provide
answers to the posed questions. Responding to visual questions that necessitate
external knowledge, such as "What event is commemorated by the building
depicted in this image?", is a complex task. This task presents a combinatorial
search space that demands a sequence of actions, including invoking APIs,
analyzing their responses, and making informed decisions. We conduct a user
study to collect a variety of instances of human decision-making when faced
with this task. This data is then used to design a system comprised of three
components: an LLM-powered planner that dynamically determines which tool to
use next, an LLM-powered reasoner that analyzes and extracts key information
from the tool outputs, and a working memory component that retains the acquired
information throughout the process. The collected user behavior serves as a
guide for our system in two key ways. First, we create a transition graph by
analyzing the sequence of decisions made by users. This graph delineates
distinct states and confines the set of actions available at each state.
Second, we use examples of user decision-making to provide our LLM-powered
planner and reasoner with relevant contextual instances, enhancing their
capacity to make informed decisions. We show that AVIS achieves
state-of-the-art results on knowledge-intensive visual question answering
benchmarks such as Infoseek and OK-VQA.
- Abstract(参考訳): 本稿では,視覚的質問応答フレームワークAVISを提案する。
提案手法は,外部ツールの利用を動的に階層化し,それらのアウトプットを調査するための大規模言語モデル(llm)を活用する。
外部の知識を必要とする視覚的な質問に対して,“このイメージに描かれた建物で記念されるイベント”というような質問は,複雑な作業である。
このタスクは、apiの起動、応答の分析、インフォームドな意思決定など、一連のアクションを必要とする組合せ検索スペースを提供する。
この課題に直面すると,人間の意思決定のさまざまな事例を収集するために,ユーザ調査を実施します。
このデータは、次に使用するツールを動的に決定するLLMベースのプランナ、ツール出力からキー情報を分析して抽出するLLMベースの推論器、取得した情報をプロセスを通して保持するワーキングメモリコンポーネントの3つのコンポーネントで構成されるシステムの設計に使用される。
収集したユーザの振る舞いは、2つの重要な方法でシステムのガイドとなります。
まず,ユーザによる意思決定の順序を解析し,遷移グラフを作成する。
このグラフは、異なる状態を示し、各状態で利用できる一連のアクションを限定する。
第2に、ユーザ意思決定の例を用いて、LLMを利用するプランナーと推論者に関連するコンテキストインスタンスを提供し、情報的な意思決定を行う能力を高める。
AVISは、InfoseekやOK-VQAなどの知識集約型視覚質問応答ベンチマークにおいて、最先端の結果が得られることを示す。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning [10.80288566599934]
HYDRAは、信頼性と漸進的な一般的な推論のための構成的視覚的推論フレームワークである。
本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
論文 参考訳(メタデータ) (2024-03-19T16:31:30Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Analyzing the Efficacy of an LLM-Only Approach for Image-based Document
Question Answering [12.064056743478865]
文書質問応答タスクにおける視覚エンコーダと言語モデルの相対的寄与について検討する。
我々の包括的分析は6つの多様なベンチマークデータセットを含み、様々なスケールのLCMを利用している。
以上の結果から, LLMにのみ依存する戦略が, 最先端の成果と同等か, 近づいた結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T07:01:16Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z) - Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。
動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-06T15:19:39Z) - Visual analytics of set data for knowledge discovery and member
selection support [0.7734726150561089]
本研究では,知識発見とメンバー選択を支援するために,データセットのVAを作成する手法を開発した。
典型的なターゲットアプリケーションは、チーム分析とメンバー選択のためのビジュアルサポートシステムである。
バスケットボールチームに適用して提案手法を実証し,結果予測とラインアップ再構築タスクのベンチマークシステムと比較した。
論文 参考訳(メタデータ) (2021-04-04T08:22:01Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。