論文の概要: Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships
- arxiv url: http://arxiv.org/abs/2203.14260v1
- Date: Sun, 27 Mar 2022 09:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:10:57.962568
- Title: Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships
- Title(参考訳): 教師なし視覚言語解析:依存性関係による言語構造付き視覚シーングラフのシームレスブリッジ
- Authors: Chao Lou, Wenjuan Han, Yuhuan Lin, Zilong Zheng
- Abstract要約: 教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 17.930724926012264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding realistic visual scene images together with language
descriptions is a fundamental task towards generic visual understanding.
Previous works have shown compelling comprehensive results by building
hierarchical structures for visual scenes (e.g., scene graphs) and natural
languages (e.g., dependency trees), individually. However, how to construct a
joint vision-language (VL) structure has barely been investigated. More
challenging but worthwhile, we introduce a new task that targets on inducing
such a joint VL structure in an unsupervised manner. Our goal is to bridge the
visual scene graphs and linguistic dependency trees seamlessly. Due to the lack
of VL structural data, we start by building a new dataset VLParse. Rather than
using labor-intensive labeling from scratch, we propose an automatic alignment
procedure to produce coarse structures followed by human refinement to produce
high-quality ones. Moreover, we benchmark our dataset by proposing a
contrastive learning (CL)-based framework VLGAE, short for Vision-Language
Graph Autoencoder. Our model obtains superior performance on two derived tasks,
i.e., language grammar induction and VL phrase grounding. Ablations show the
effectiveness of both visual cues and dependency relationships on fine-grained
VL structure construction.
- Abstract(参考訳): 現実的な視覚シーンイメージと言語記述を理解することは、汎用的な視覚理解のための基本的なタスクである。
以前の研究は、視覚シーン(シーングラフなど)と自然言語(依存性木など)の階層構造を個別に構築することで、魅力的な包括的な結果を示している。
しかし,共同視覚言語(VL)構造の構築方法についてはほとんど研究されていない。
より難しいが重要なことは、そのような共同VL構造を教師なしで誘導することを目的とした新しいタスクを導入することである。
私たちの目標は、視覚シーングラフと言語依存木をシームレスに橋渡しすることです。
VL構造データがないため、私たちはまず、新しいデータセットであるVLParseを構築します。
労働集約的なラベリングをスクラッチから使うのではなく, 粗い構造を生産し, 高品質な構造を生産する自動アライメント手法を提案する。
さらに、我々は、Vision-Language Graph Autoencoderの略であるCLベースのフレームワークVLGAEを提案し、データセットをベンチマークする。
本モデルでは,2つの派生課題,すなわち言語文法の帰納化とVL句の接地処理において,優れた性能が得られる。
アブレーションは、微細なVL構造構築における視覚的手がかりと依存関係の両方の有効性を示す。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文 参考訳(メタデータ) (2023-11-22T09:23:34Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through
Scene Graph [38.97228345655337]
ERNIE-ViLは視覚と言語をまたいだ詳細なセマンティック接続(オブジェクト、オブジェクトの属性、オブジェクト間の関係)を構築しようとする。
ERNIE-ViLはScene Graph Predictionタスク、すなわちオブジェクト予測、属性予測、関係予測タスクを構成する。
ERNIE-ViLはこれらの全てのタスクで最先端のパフォーマンスを達成し、VCRのリーダーボードでは3.7%の絶対的な改善で1位にランクインした。
論文 参考訳(メタデータ) (2020-06-30T16:03:12Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。