論文の概要: VCD: A Dataset for Visual Commonsense Discovery in Images
- arxiv url: http://arxiv.org/abs/2402.17213v2
- Date: Thu, 05 Jun 2025 14:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.126459
- Title: VCD: A Dataset for Visual Commonsense Discovery in Images
- Title(参考訳): VCD:画像におけるビジュアルコモンセンス発見のためのデータセット
- Authors: Xiangqing Shen, Fanfan Wang, Siwei Wu, Rui Xia,
- Abstract要約: 我々は,10万以上の画像と1400万対のオブジェクト・コモンセンスを含む大規模データセットであるVisual Commonsenseデータセット(VCD)を提示する。
VCDは、視覚的コモンセンスのための新しい3段階の分類を導入し、プロパティー、アクション、スペースの側面にわたって、Seen(直接観測可能)とUnseen(推論不能)のコモンセンスを統合する。
VCDの有用性を実証するために,視覚言語モデルと命令チューニングを組み合わせた生成モデルであるVCMを開発し,画像から多様な視覚コモンセンスを検出する。
- 参考スコア(独自算出の注目度): 25.987224875305085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual commonsense plays a vital role in understanding and reasoning about the visual world. While commonsense knowledge bases like ConceptNet provide structured collections of general facts, they lack visually grounded representations. Scene graph datasets like Visual Genome, though rich in object-level descriptions, primarily focus on directly observable information and lack systematic categorization of commonsense knowledge. We present Visual Commonsense Dataset (VCD), a large-scale dataset containing over 100,000 images and 14 million object-commonsense pairs that bridges this gap. VCD introduces a novel three-level taxonomy for visual commonsense, integrating both Seen (directly observable) and Unseen (inferrable) commonsense across Property, Action, and Space aspects. Each commonsense is represented as a triple where the head entity is grounded to object bounding boxes in images, enabling scene-dependent and object-specific visual commonsense representation. To demonstrate VCD's utility, we develop VCM, a generative model that combines a vision-language model with instruction tuning to discover diverse visual commonsense from images. Extensive evaluations demonstrate both the high quality of VCD and its value as a resource for advancing visually grounded commonsense understanding and reasoning. Our dataset and code will be released on https://github.com/NUSTM/VCD.
- Abstract(参考訳): ビジュアルコモンセンスは、視覚世界に対する理解と推論において重要な役割を果たす。
ConceptNetのような常識的な知識ベースは、一般的な事実の構造化されたコレクションを提供するが、視覚的に基礎的な表現は欠如している。
Visual Genomeのようなシーングラフデータセットは、オブジェクトレベルの記述に富んでいるが、主に直接観測可能な情報に焦点を当て、コモンセンス知識の体系的な分類を欠いている。
Visual Commonsense Dataset (VCD)は、このギャップを埋める10万以上の画像と1400万のオブジェクト・コモンセンスのペアを含む大規模なデータセットである。
VCDは、視覚的コモンセンスのための新しい3段階の分類を導入し、プロパティ、アクション、スペースの側面にまたがって、Seen(直接観測可能)とUnseen(推論不能)のコモンセンスを統合する。
それぞれのコモンセンスは、画像内のオブジェクト境界ボックスにヘッドエンティティを接地するトリプルとして表現され、シーン依存およびオブジェクト固有のビジュアルコモンセンス表現を可能にする。
VCDの有用性を実証するために,視覚言語モデルと命令チューニングを組み合わせた生成モデルであるVCMを開発し,画像から多様な視覚コモンセンスを検出する。
広汎な評価は,VCDの高品質さと,その価値を視覚的基盤としたコモンセンス理解と推論の推進の資源として示している。
データセットとコードはhttps://github.com/NUSTM/VCDで公開されます。
関連論文リスト
- Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-02-21T06:34:46Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000
ImageNet Categories [50.51976425891379]
大規模言語モデル (LLM) は汎用インタフェースとして機能しており、包括的な視覚的知識の需要が著しく高まっている。
ゼロ画像と少数画像のコモンセンス評価に特化して設計されたデータセットであるImageNetVCを提案する。
我々は、一元的LLMと視覚的に拡張されたLLMの両方の基本的な視覚的常識知識をベンチマークする。
論文 参考訳(メタデータ) (2023-05-24T11:14:31Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。