論文の概要: See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning
- arxiv url: http://arxiv.org/abs/2301.05226v1
- Date: Thu, 12 Jan 2023 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:24:55.355932
- Title: See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning
- Title(参考訳): 知識に基づく視覚推論のための視覚と言語モデル間の対話的プロンプト
- Authors: Zhenfang Chen, Qinhong Zhou, Yikang Shen, Yining Hong, Hao Zhang,
Chuang Gan
- Abstract要約: 本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
- 参考スコア(独自算出の注目度): 60.43585179885355
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large pre-trained vision and language models have demonstrated remarkable
capacities for various tasks. However, solving the knowledge-based visual
reasoning tasks remains challenging, which requires a model to comprehensively
understand image content, connect the external world knowledge, and perform
step-by-step reasoning to answer the questions correctly. To this end, we
propose a novel framework named Interactive Prompting Visual Reasoner (IPVR)
for few-shot knowledge-based visual reasoning. IPVR contains three stages, see,
think and confirm. The see stage scans the image and grounds the visual concept
candidates with a visual perception model. The think stage adopts a pre-trained
large language model (LLM) to attend to the key concepts from candidates
adaptively. It then transforms them into text context for prompting with a
visual captioning model and adopts the LLM to generate the answer. The confirm
stage further uses the LLM to generate the supporting rationale to the answer,
verify the generated rationale with a cross-modality classifier and ensure that
the rationale can infer the predicted output consistently. We conduct
experiments on a range of knowledge-based visual reasoning datasets. We found
our IPVR enjoys several benefits, 1). it achieves better performance than the
previous few-shot learning baselines; 2). it enjoys the total transparency and
trustworthiness of the whole reasoning process by providing rationales for each
reasoning step; 3). it is computation-efficient compared with other fine-tuning
baselines.
- Abstract(参考訳): 大きな事前訓練されたビジョンと言語モデルは、様々なタスクに顕著な能力を示している。
しかし、知識に基づく視覚的推論課題の解決は依然として困難であり、画像コンテンツを包括的に理解し、外部の知識を結びつけ、質問に正しく答えるためにステップバイステップの推論を行うモデルが必要である。
そこで本研究では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
ipvrには see, think, confirmedという3つのステージがある。
seeステージは画像をスキャンし、視覚知覚モデルを用いて視覚概念候補を根拠とする。
シンクステージは、学習済みの大規模言語モデル(LLM)を採用し、候補から重要な概念を適応的に受け入れる。
その後、それらをテキストコンテキストに変換して、視覚的なキャプションモデルでプロンプトし、LLMを採用して回答を生成する。
確認段階はさらに、LCMを使用して回答に対する支持的論理を生成し、生成した論理をクロスモダリティ分類器で検証し、予測された出力を一貫して推測できるようにする。
知識に基づく視覚推論データセットについて実験を行った。
IPVRにはいくつかのメリットがあります。
以前のマイナショット学習ベースラインよりも優れたパフォーマンスを実現している。
各推論ステップの根拠を提供することで、推論プロセス全体の完全な透明性と信頼性を享受する。
他の微調整ベースラインと比べて計算効率が良い。
関連論文リスト
- ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [42.03770972100087]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。
実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Enhance Reasoning Ability of Visual-Language Models via Large Language
Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。
TReEは観察、思考、再考の3段階を含む。
論文 参考訳(メタデータ) (2023-05-22T17:33:44Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。