論文の概要: VCD: A Dataset for Visual Commonsense Discovery in Images
- arxiv url: http://arxiv.org/abs/2402.17213v2
- Date: Thu, 05 Jun 2025 14:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.126459
- Title: VCD: A Dataset for Visual Commonsense Discovery in Images
- Title(参考訳): VCD:画像におけるビジュアルコモンセンス発見のためのデータセット
- Authors: Xiangqing Shen, Fanfan Wang, Siwei Wu, Rui Xia,
- Abstract要約: 我々は,10万以上の画像と1400万対のオブジェクト・コモンセンスを含む大規模データセットであるVisual Commonsenseデータセット(VCD)を提示する。
VCDは、視覚的コモンセンスのための新しい3段階の分類を導入し、プロパティー、アクション、スペースの側面にわたって、Seen(直接観測可能)とUnseen(推論不能)のコモンセンスを統合する。
VCDの有用性を実証するために,視覚言語モデルと命令チューニングを組み合わせた生成モデルであるVCMを開発し,画像から多様な視覚コモンセンスを検出する。
- 参考スコア(独自算出の注目度): 25.987224875305085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual commonsense plays a vital role in understanding and reasoning about the visual world. While commonsense knowledge bases like ConceptNet provide structured collections of general facts, they lack visually grounded representations. Scene graph datasets like Visual Genome, though rich in object-level descriptions, primarily focus on directly observable information and lack systematic categorization of commonsense knowledge. We present Visual Commonsense Dataset (VCD), a large-scale dataset containing over 100,000 images and 14 million object-commonsense pairs that bridges this gap. VCD introduces a novel three-level taxonomy for visual commonsense, integrating both Seen (directly observable) and Unseen (inferrable) commonsense across Property, Action, and Space aspects. Each commonsense is represented as a triple where the head entity is grounded to object bounding boxes in images, enabling scene-dependent and object-specific visual commonsense representation. To demonstrate VCD's utility, we develop VCM, a generative model that combines a vision-language model with instruction tuning to discover diverse visual commonsense from images. Extensive evaluations demonstrate both the high quality of VCD and its value as a resource for advancing visually grounded commonsense understanding and reasoning. Our dataset and code will be released on https://github.com/NUSTM/VCD.
- Abstract(参考訳): ビジュアルコモンセンスは、視覚世界に対する理解と推論において重要な役割を果たす。
ConceptNetのような常識的な知識ベースは、一般的な事実の構造化されたコレクションを提供するが、視覚的に基礎的な表現は欠如している。
Visual Genomeのようなシーングラフデータセットは、オブジェクトレベルの記述に富んでいるが、主に直接観測可能な情報に焦点を当て、コモンセンス知識の体系的な分類を欠いている。
Visual Commonsense Dataset (VCD)は、このギャップを埋める10万以上の画像と1400万のオブジェクト・コモンセンスのペアを含む大規模なデータセットである。
VCDは、視覚的コモンセンスのための新しい3段階の分類を導入し、プロパティ、アクション、スペースの側面にまたがって、Seen(直接観測可能)とUnseen(推論不能)のコモンセンスを統合する。
それぞれのコモンセンスは、画像内のオブジェクト境界ボックスにヘッドエンティティを接地するトリプルとして表現され、シーン依存およびオブジェクト固有のビジュアルコモンセンス表現を可能にする。
VCDの有用性を実証するために,視覚言語モデルと命令チューニングを組み合わせた生成モデルであるVCMを開発し,画像から多様な視覚コモンセンスを検出する。
広汎な評価は,VCDの高品質さと,その価値を視覚的基盤としたコモンセンス理解と推論の推進の資源として示している。
データセットとコードはhttps://github.com/NUSTM/VCDで公開されます。
関連論文リスト
- Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models [28.88723703297274]
近年の視覚言語モデル (VLM) では, マルチモーダル理解と推論能力が著しく向上している。
我々は,基本的・不可分な視覚認知スキルを系統的に分類し,原子視覚スキルと呼ぶ。
我々は最先端のVLMをベンチマークし、大人の人間にはやさしいが、これらのタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:09:24Z) - Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - 360+x: A Panoptic Multi-modal Scene Understanding Dataset [13.823967656097146]
360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。
私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
論文 参考訳(メタデータ) (2024-04-01T08:34:42Z) - Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-02-21T06:34:46Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000
ImageNet Categories [50.51976425891379]
大規模言語モデル (LLM) は汎用インタフェースとして機能しており、包括的な視覚的知識の需要が著しく高まっている。
ゼロ画像と少数画像のコモンセンス評価に特化して設計されたデータセットであるImageNetVCを提案する。
我々は、一元的LLMと視覚的に拡張されたLLMの両方の基本的な視覚的常識知識をベンチマークする。
論文 参考訳(メタデータ) (2023-05-24T11:14:31Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - MVImgNet: A Large-scale Dataset of Multi-view Images [40.406715034257466]
マルチビュー画像の大規模データセットであるMVImgNetを紹介する。
238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。
それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
論文 参考訳(メタデータ) (2023-03-10T16:31:31Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。