論文の概要: VCD: Knowledge Base Guided Visual Commonsense Discovery in Images
- arxiv url: http://arxiv.org/abs/2402.17213v1
- Date: Tue, 27 Feb 2024 05:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:43:02.866039
- Title: VCD: Knowledge Base Guided Visual Commonsense Discovery in Images
- Title(参考訳): VCD: ビジュアルコモンセンス発見のための知識ベース
- Authors: Xiangqing Shen, Yurun Song, Siwei Wu and Rui Xia
- Abstract要約: ビジュアルコモンセンスは、視覚データ内のオブジェクトの特性、関係、行動に関する知識を含んでいる。
既存のビジュアルコモンセンス発見研究は粗く、不完全である。
画像内の異なるオブジェクトに含まれる異なる種類の細かなコモンセンスを抽出することを目的とした,新しいタスク Visual Commonsense Discovery (VCD) を導入する。
- 参考スコア(独自算出の注目度): 29.365497780243828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual commonsense contains knowledge about object properties, relationships,
and behaviors in visual data. Discovering visual commonsense can provide a more
comprehensive and richer understanding of images, and enhance the reasoning and
decision-making capabilities of computer vision systems. However, the visual
commonsense defined in existing visual commonsense discovery studies is
coarse-grained and incomplete. In this work, we draw inspiration from a
commonsense knowledge base ConceptNet in natural language processing, and
systematically define the types of visual commonsense. Based on this, we
introduce a new task, Visual Commonsense Discovery (VCD), aiming to extract
fine-grained commonsense of different types contained within different objects
in the image. We accordingly construct a dataset (VCDD) from Visual Genome and
ConceptNet for VCD, featuring over 100,000 images and 14 million
object-commonsense pairs. We furthermore propose a generative model (VCDM) that
integrates a vision-language model with instruction tuning to tackle VCD.
Automatic and human evaluations demonstrate VCDM's proficiency in VCD,
particularly outperforming GPT-4V in implicit commonsense discovery. The value
of VCD is further demonstrated by its application to two downstream tasks,
including visual commonsense evaluation and visual question answering. The data
and code will be made available on GitHub.
- Abstract(参考訳): ビジュアルコモンセンスは、視覚データ内のオブジェクトの特性、関係、行動に関する知識を含んでいる。
視覚コモンセンスの発見は、より包括的でより豊かな画像の理解を提供し、コンピュータビジョンシステムの推論と意思決定能力を高めることができる。
しかし、既存の視覚コモンセンス発見研究で定義された視覚コモンセンスは粗く、不完全である。
本研究では,自然言語処理におけるコモンセンス知識ベース概念ネットから着想を得て,視覚コモンセンスのタイプを体系的に定義する。
これに基づいて、画像内の異なるオブジェクトに含まれる異なる種類の細かなコモンセンスを抽出することを目的とした、Visual Commonsense Discovery (VCD)という新しいタスクを導入する。
そこで我々は,Visual GenomeとConceptNetからVCD用のデータセット(VCDD)を構築し,10万以上の画像と1400万のオブジェクト・コモンセンスのペアを特徴とする。
さらに、視覚言語モデルと命令調律を統合してVCDに取り組む生成モデル(VCDM)を提案する。
自動的および人的評価は、VCDにおけるVCDMの熟練度を示し、特に暗黙のコモンセンス発見においてGPT-4Vを上回っている。
VCDの価値は、視覚的常識評価と視覚的質問応答を含む2つの下流タスクに適用することでさらに実証される。
データとコードはgithubから入手できる。
関連論文リスト
- Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-02-21T06:34:46Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000
ImageNet Categories [50.51976425891379]
大規模言語モデル (LLM) は汎用インタフェースとして機能しており、包括的な視覚的知識の需要が著しく高まっている。
ゼロ画像と少数画像のコモンセンス評価に特化して設計されたデータセットであるImageNetVCを提案する。
我々は、一元的LLMと視覚的に拡張されたLLMの両方の基本的な視覚的常識知識をベンチマークする。
論文 参考訳(メタデータ) (2023-05-24T11:14:31Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。