論文の概要: Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles
- arxiv url: http://arxiv.org/abs/2211.16504v1
- Date: Tue, 29 Nov 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:33:06.155634
- Title: Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles
- Title(参考訳): 知識グラフを用いた視覚言語モデルの常識化
- Authors: Shuquan Ye and Yujia Xie and Dongdong Chen and Yichong Xu and Lu Yuan
and Chenguang Zhu and Jing Liao
- Abstract要約: 本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 83.41551911845157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on analyzing and improving the commonsense ability of
recent popular vision-language (VL) models. Despite the great success, we
observe that existing VL-models still lack commonsense knowledge/reasoning
ability (e.g., "Lemons are sour"), which is a vital component towards
artificial general intelligence. Through our analysis, we find one important
reason is that existing large-scale VL datasets do not contain much commonsense
knowledge, which motivates us to improve the commonsense of VL-models from the
data perspective. Rather than collecting a new VL training dataset, we propose
a more scalable strategy, i.e., "Data Augmentation with kNowledge graph
linearization for CommonsensE capability" (DANCE). It can be viewed as one type
of data augmentation technique, which can inject commonsense knowledge into
existing VL datasets on the fly during training. More specifically, we leverage
the commonsense knowledge graph (e.g., ConceptNet) and create variants of text
description in VL datasets via bidirectional sub-graph sequentialization. For
better commonsense evaluation, we further propose the first retrieval-based
commonsense diagnostic benchmark. By conducting extensive experiments on some
representative VL-models, we demonstrate that our DANCE technique is able to
significantly improve the commonsense ability while maintaining the performance
on vanilla retrieval tasks. The code and data are available at
https://github.com/pleaseconnectwifi/DANCE
- Abstract(参考訳): 本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
大きな成功にもかかわらず、既存のVLモデルは、人工知能にとって重要な要素である常識的知識/推論能力(例:「レモンは酸っぱい」)が欠けている。
分析の結果,既存の大規模VLデータセットにはコモンセンスの知識があまり含まれておらず,データの観点からVLモデルのコモンセンスを改善する動機となっていることが判明した。
新たなVLトレーニングデータセットを収集する代わりに、よりスケーラブルな戦略として、"KNowledge graph linearization for CommonsensE capabilities"(DANCE)を提案する。
これは、トレーニング中に既存のvlデータセットに共通知識をオンザフライで注入できる、データ拡張技術の一種と見なすことができる。
具体的には、Commonsenseナレッジグラフ(ConceptNetなど)を活用し、双方向サブグラフシーケンシャル化によるVLデータセットにおけるテキスト記述の変種を生成する。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
代表的なVLモデルについて広範な実験を行うことで,本手法がバニラ検索タスクの性能を維持しつつ,コモンセンス能力を大幅に向上できることを示す。
コードとデータはhttps://github.com/pleaseconnectwifi/danceで入手できる。
関連論文リスト
- Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - A survey on knowledge-enhanced multimodal learning [0.0]
マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。
特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。
VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
論文 参考訳(メタデータ) (2022-11-19T14:00:50Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。