Fugu-MT 論文翻訳(概要): VCD: Knowledge Base Guided Visual Commonsense Discovery in Images

論文の概要: VCD: Knowledge Base Guided Visual Commonsense Discovery in Images

arxiv url: http://arxiv.org/abs/2402.17213v1
Date: Tue, 27 Feb 2024 05:10:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:43:02.866039
Title: VCD: Knowledge Base Guided Visual Commonsense Discovery in Images
Title（参考訳）: VCD: ビジュアルコモンセンス発見のための知識ベース
Authors: Xiangqing Shen, Yurun Song, Siwei Wu and Rui Xia
Abstract要約: ビジュアルコモンセンスは、視覚データ内のオブジェクトの特性、関係、行動に関する知識を含んでいる。既存のビジュアルコモンセンス発見研究は粗く、不完全である。画像内の異なるオブジェクトに含まれる異なる種類の細かなコモンセンスを抽出することを目的とした,新しいタスク Visual Commonsense Discovery (VCD) を導入する。
参考スコア（独自算出の注目度）: 29.365497780243828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual commonsense contains knowledge about object properties, relationships, and behaviors in visual data. Discovering visual commonsense can provide a more comprehensive and richer understanding of images, and enhance the reasoning and decision-making capabilities of computer vision systems. However, the visual commonsense defined in existing visual commonsense discovery studies is coarse-grained and incomplete. In this work, we draw inspiration from a commonsense knowledge base ConceptNet in natural language processing, and systematically define the types of visual commonsense. Based on this, we introduce a new task, Visual Commonsense Discovery (VCD), aiming to extract fine-grained commonsense of different types contained within different objects in the image. We accordingly construct a dataset (VCDD) from Visual Genome and ConceptNet for VCD, featuring over 100,000 images and 14 million object-commonsense pairs. We furthermore propose a generative model (VCDM) that integrates a vision-language model with instruction tuning to tackle VCD. Automatic and human evaluations demonstrate VCDM's proficiency in VCD, particularly outperforming GPT-4V in implicit commonsense discovery. The value of VCD is further demonstrated by its application to two downstream tasks, including visual commonsense evaluation and visual question answering. The data and code will be made available on GitHub.
Abstract（参考訳）: ビジュアルコモンセンスは、視覚データ内のオブジェクトの特性、関係、行動に関する知識を含んでいる。視覚コモンセンスの発見は、より包括的でより豊かな画像の理解を提供し、コンピュータビジョンシステムの推論と意思決定能力を高めることができる。しかし、既存の視覚コモンセンス発見研究で定義された視覚コモンセンスは粗く、不完全である。本研究では,自然言語処理におけるコモンセンス知識ベース概念ネットから着想を得て,視覚コモンセンスのタイプを体系的に定義する。これに基づいて、画像内の異なるオブジェクトに含まれる異なる種類の細かなコモンセンスを抽出することを目的とした、Visual Commonsense Discovery (VCD)という新しいタスクを導入する。そこで我々は,Visual GenomeとConceptNetからVCD用のデータセット(VCDD)を構築し,10万以上の画像と1400万のオブジェクト・コモンセンスのペアを特徴とする。さらに、視覚言語モデルと命令調律を統合してVCDに取り組む生成モデル(VCDM)を提案する。自動的および人的評価は、VCDにおけるVCDMの熟練度を示し、特に暗黙のコモンセンス発見においてGPT-4Vを上回っている。 VCDの価値は、視覚的常識評価と視覚的質問応答を含む2つの下流タスクに適用することでさらに実証される。データとコードはgithubから入手できる。

関連論文リスト

Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models [28.88723703297274]
近年の視覚言語モデル (VLM) では, マルチモーダル理解と推論能力が著しく向上している。我々は,基本的・不可分な視覚認知スキルを系統的に分類し,原子視覚スキルと呼ぶ。我々は最先端のVLMをベンチマークし、大人の人間にはやさしいが、これらのタスクに苦労していることがわかった。
論文参考訳（メタデータ） (2025-05-26T14:09:24Z)
Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文参考訳（メタデータ） (2024-04-19T06:41:32Z)
360+x: A Panoptic Multi-modal Scene Understanding Dataset [13.823967656097146]
360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
論文参考訳（メタデータ） (2024-04-01T08:34:42Z)
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment [31.688373463643373]
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。本稿では,VKA(Valted Visual Knowledge Aligner)とFKA(Falt-fine Knowledge Adapter)とを含む認知視覚言語マップ(CVLM)について述べる。我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-02-21T06:34:46Z)
MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文参考訳（メタデータ） (2023-09-27T15:35:20Z)
ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories [50.51976425891379]
大規模言語モデル (LLM) は汎用インタフェースとして機能しており、包括的な視覚的知識の需要が著しく高まっている。ゼロ画像と少数画像のコモンセンス評価に特化して設計されたデータセットであるImageNetVCを提案する。我々は、一元的LLMと視覚的に拡張されたLLMの両方の基本的な視覚的常識知識をベンチマークする。
論文参考訳（メタデータ） (2023-05-24T11:14:31Z)
Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文参考訳（メタデータ） (2023-04-03T02:17:05Z)
MVImgNet: A Large-scale Dataset of Multi-view Images [40.406715034257466]
マルチビュー画像の大規模データセットであるMVImgNetを紹介する。 238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
論文参考訳（メタデータ） (2023-03-10T16:31:31Z)
Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。モデルが個人を接地する能力をテストする。本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文参考訳（メタデータ） (2022-12-14T01:37:16Z)
Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文参考訳（メタデータ） (2022-11-28T15:06:07Z)
Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-11-17T11:27:15Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文参考訳（メタデータ） (2022-06-14T12:47:47Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文参考訳（メタデータ） (2022-02-22T11:32:59Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)
Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文参考訳（メタデータ） (2021-03-18T11:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。