論文の概要: Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?
- arxiv url: http://arxiv.org/abs/2410.13651v1
- Date: Thu, 17 Oct 2024 15:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:29.752917
- Title: Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?
- Title(参考訳): LLM+VQAシステムは、視覚概念を識別するのに必要か?
- Authors: Shailaja Keyur Sampat, Maitreya Patel, Yezhou Yang, Chitta Baral,
- Abstract要約: 本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
- 参考スコア(独自算出の注目度): 62.984473889987605
- License:
- Abstract: An ability to learn about new objects from a small amount of visual data and produce convincing linguistic justification about the presence/absence of certain concepts (that collectively compose the object) in novel scenarios is an important characteristic of human cognition. This is possible due to abstraction of attributes/properties that an object is composed of e.g. an object `bird' can be identified by the presence of a beak, feathers, legs, wings, etc. Inspired by this aspect of human reasoning, in this work, we present a zero-shot framework for fine-grained visual concept learning by leveraging large language model and Visual Question Answering (VQA) system. Specifically, we prompt GPT-3 to obtain a rich linguistic description of visual objects in the dataset. We convert the obtained concept descriptions into a set of binary questions. We pose these questions along with the query image to a VQA system and aggregate the answers to determine the presence or absence of an object in the test images. Our experiments demonstrate comparable performance with existing zero-shot visual classification methods and few-shot concept learning approaches, without substantial computational overhead, yet being fully explainable from the reasoning perspective.
- Abstract(参考訳): 少量の視覚データから新しい物体を学習し、新しいシナリオにおける特定の概念の存在/存在に関する説得力のある言語的正当化を生成する能力は、人間の認知の重要な特徴である。
これは、オブジェクトが例えば、'bird'オブジェクトは、くちばし、羽根、脚、羽根などの存在によって識別できる、という属性/プロパティの抽象化によって可能となる。
人間の推論のこの側面に触発された本研究では,大規模言語モデルとVQAシステムを活用した,きめ細かい視覚概念学習のためのゼロショットフレームワークを提案する。
具体的には、GPT-3に対して、データセット内の視覚オブジェクトの豊富な言語的記述を得るよう促す。
得られた概念記述をバイナリー質問の集合に変換する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
本実験では,既存のゼロショット視覚分類法と少数ショット概念学習手法と同等の性能を示し,計算オーバーヘッドは大きいものの,推論の観点から完全に説明可能であることを示した。
関連論文リスト
- Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - Explaining Explainability: Understanding Concept Activation Vectors [35.37586279472797]
最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。
これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。
本研究では,概念活性化ベクトル(Concept Activation Vectors, CAV)の3つの特性について検討する。
本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。
論文 参考訳(メタデータ) (2024-04-04T17:46:20Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。