論文の概要: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through
Scene Graph
- arxiv url: http://arxiv.org/abs/2006.16934v3
- Date: Fri, 19 Mar 2021 05:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:36:42.042512
- Title: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through
Scene Graph
- Title(参考訳): ERNIE-ViL: シーングラフによる視覚言語表現の知識向上
- Authors: Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng
Wang
- Abstract要約: ERNIE-ViLは視覚と言語をまたいだ詳細なセマンティック接続(オブジェクト、オブジェクトの属性、オブジェクト間の関係)を構築しようとする。
ERNIE-ViLはScene Graph Predictionタスク、すなわちオブジェクト予測、属性予測、関係予測タスクを構成する。
ERNIE-ViLはこれらの全てのタスクで最先端のパフォーマンスを達成し、VCRのリーダーボードでは3.7%の絶対的な改善で1位にランクインした。
- 参考スコア(独自算出の注目度): 38.97228345655337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates
structured knowledge obtained from scene graphs to learn joint representations
of vision-language. ERNIE-ViL tries to build the detailed semantic connections
(objects, attributes of objects and relationships between objects) across
vision and language, which are essential to vision-language cross-modal tasks.
Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph
Prediction tasks, i.e., Object Prediction, Attribute Prediction and
Relationship Prediction tasks in the pre-training phase. Specifically, these
prediction tasks are implemented by predicting nodes of different types in the
scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint
representations characterizing the alignments of the detailed semantics across
vision and language. After pre-training on large scale image-text aligned
datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal
downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these
tasks and ranks the first place on the VCR leaderboard with an absolute
improvement of 3.7%.
- Abstract(参考訳): 本研究では,シーングラフから得られた構造化知識を取り入れた知識強化手法ERNIE-ViLを提案する。
ERNIE-ViLは、視覚と言語間の詳細なセマンティック接続(オブジェクト、オブジェクトの属性、オブジェクト間の関係)を構築しようとしている。
視覚シーンのシーングラフを利用することで、ernie-vilは事前学習段階におけるシーングラフ予測タスク、すなわちオブジェクト予測、属性予測、関係予測タスクを構築する。
特に、これらの予測タスクは、文から解析されたシーングラフの異なるタイプのノードを予測することによって実装される。
したがって、ERNIE-ViLは、視覚と言語間の詳細な意味のアライメントを特徴付ける共同表現を学習することができる。
大規模画像テキストアライメントデータセットを事前トレーニングした後,5つのクロスモーダルダウンストリームタスクにおけるernie-vilの有効性を検証する。
ERNIE-ViLはこれらの全てのタスクで最先端のパフォーマンスを達成し、VCRのリーダーボードでは3.7%の絶対的な改善で1位にランクインした。
関連論文リスト
- Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文 参考訳(メタデータ) (2023-05-18T05:25:40Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。