論文の概要: Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2412.18351v1
- Date: Tue, 24 Dec 2024 11:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:35.099339
- Title: Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚質問応答のための大規模言語モデルに基づくマルチエージェント
- Authors: Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang,
- Abstract要約: 知識に基づく視覚質問応答のための投票フレームワークを提案する。
チーム内のさまざまなレベルのスタッフをシミュレートする3つのエージェントを設計し、利用可能なツールをレベルに応じて割り当てます。
OK-VQA と A-OKVQA の実験により,本手法は,それぞれ2.2 と 1.0 の他のベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 6.6897007888321465
- License:
- Abstract: Large Language Models (LLMs) have achieved impressive results in knowledge-based Visual Question Answering (VQA). However existing methods still have challenges: the inability to use external tools autonomously, and the inability to work in teams. Humans tend to know whether they need to use external tools when they encounter a new question, e.g., they tend to be able to give a direct answer to a familiar question, whereas they tend to use tools such as search engines when they encounter an unfamiliar question. In addition, humans also tend to collaborate and discuss with others to get better answers. Inspired by this, we propose the multi-agent voting framework. We design three LLM-based agents that simulate different levels of staff in a team, and assign the available tools according to the levels. Each agent provides the corresponding answer, and finally all the answers provided by the agents are voted to get the final answer. Experiments on OK-VQA and A-OKVQA show that our approach outperforms other baselines by 2.2 and 1.0, respectively.
- Abstract(参考訳): 大規模言語モデル (LLM) は知識に基づく視覚質問回答 (VQA) において印象的な成果を上げている。
しかしながら、既存のメソッドには、外部ツールを自律的に使用できないこと、チームで作業できないことなど、依然として課題があります。
人間は、新しい質問に遭遇した時に外部ツールを使う必要があるかを知る傾向があり、例えば、親しみやすい質問に対して直接答える傾向があり、一方、知らない質問に遭遇した時に検索エンジンのようなツールを使う傾向にある。
加えて、人間はより良い回答を得るために協力し、他の人と議論する傾向がある。
これに触発されて、我々はマルチエージェント投票フレームワークを提案する。
我々は、チーム内のさまざまなレベルのスタッフをシミュレートする3つのLCMベースのエージェントを設計し、利用可能なツールをレベルに応じて割り当てる。
各エージェントが対応する回答を提供し、最後にエージェントが提供するすべての回答が最終回答を得るために投票される。
OK-VQA と A-OKVQA の実験により,本手法は,それぞれ2.2 と 1.0 の他のベースラインよりも優れていることが示された。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation [2.225268436173329]
StackRAGは,大規模言語モデルに基づく検索拡張マルチエージェント生成ツールである。
SOからの知識を集約して、生成された回答の信頼性を高める、という2つの世界を組み合わせています。
最初の評価は、生成された回答が正確で正確で、関連があり、有用であることを示している。
論文 参考訳(メタデータ) (2024-06-19T21:07:35Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - One Agent Too Many: User Perspectives on Approaches to Multi-agent
Conversational AI [10.825570464035872]
システムユーザビリティとシステムパフォーマンスの両方において,エージェントオーケストレーションを抽象化する上で,ユーザにとって重要な選択肢があることが示される。
人間の選択した回答の1%以内に評価された質の高い応答を提供できることを実証する。
論文 参考訳(メタデータ) (2024-01-13T17:30:57Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Asking for Knowledge: Training RL Agents to Query External Knowledge
Using Language [121.56329458876655]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。
本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (2022-05-12T14:20:31Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。