論文の概要: See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning
- arxiv url: http://arxiv.org/abs/2301.05226v1
- Date: Thu, 12 Jan 2023 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:24:55.355932
- Title: See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning
- Title(参考訳): 知識に基づく視覚推論のための視覚と言語モデル間の対話的プロンプト
- Authors: Zhenfang Chen, Qinhong Zhou, Yikang Shen, Yining Hong, Hao Zhang,
Chuang Gan
- Abstract要約: 本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
- 参考スコア(独自算出の注目度): 60.43585179885355
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large pre-trained vision and language models have demonstrated remarkable
capacities for various tasks. However, solving the knowledge-based visual
reasoning tasks remains challenging, which requires a model to comprehensively
understand image content, connect the external world knowledge, and perform
step-by-step reasoning to answer the questions correctly. To this end, we
propose a novel framework named Interactive Prompting Visual Reasoner (IPVR)
for few-shot knowledge-based visual reasoning. IPVR contains three stages, see,
think and confirm. The see stage scans the image and grounds the visual concept
candidates with a visual perception model. The think stage adopts a pre-trained
large language model (LLM) to attend to the key concepts from candidates
adaptively. It then transforms them into text context for prompting with a
visual captioning model and adopts the LLM to generate the answer. The confirm
stage further uses the LLM to generate the supporting rationale to the answer,
verify the generated rationale with a cross-modality classifier and ensure that
the rationale can infer the predicted output consistently. We conduct
experiments on a range of knowledge-based visual reasoning datasets. We found
our IPVR enjoys several benefits, 1). it achieves better performance than the
previous few-shot learning baselines; 2). it enjoys the total transparency and
trustworthiness of the whole reasoning process by providing rationales for each
reasoning step; 3). it is computation-efficient compared with other fine-tuning
baselines.
- Abstract(参考訳): 大きな事前訓練されたビジョンと言語モデルは、様々なタスクに顕著な能力を示している。
しかし、知識に基づく視覚的推論課題の解決は依然として困難であり、画像コンテンツを包括的に理解し、外部の知識を結びつけ、質問に正しく答えるためにステップバイステップの推論を行うモデルが必要である。
そこで本研究では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
ipvrには see, think, confirmedという3つのステージがある。
seeステージは画像をスキャンし、視覚知覚モデルを用いて視覚概念候補を根拠とする。
シンクステージは、学習済みの大規模言語モデル(LLM)を採用し、候補から重要な概念を適応的に受け入れる。
その後、それらをテキストコンテキストに変換して、視覚的なキャプションモデルでプロンプトし、LLMを採用して回答を生成する。
確認段階はさらに、LCMを使用して回答に対する支持的論理を生成し、生成した論理をクロスモダリティ分類器で検証し、予測された出力を一貫して推測できるようにする。
知識に基づく視覚推論データセットについて実験を行った。
IPVRにはいくつかのメリットがあります。
以前のマイナショット学習ベースラインよりも優れたパフォーマンスを実現している。
各推論ステップの根拠を提供することで、推論プロセス全体の完全な透明性と信頼性を享受する。
他の微調整ベースラインと比べて計算効率が良い。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Enhance Reasoning Ability of Visual-Language Models via Large Language
Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。
TReEは観察、思考、再考の3段階を含む。
論文 参考訳(メタデータ) (2023-05-22T17:33:44Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。