論文の概要: ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation
- arxiv url: http://arxiv.org/abs/2311.13258v1
- Date: Wed, 22 Nov 2023 09:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:28:57.372666
- Title: ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation
- Title(参考訳): vistruct: カリキュラム指導型コードビジョン表現による視覚構造知識の抽出
- Authors: Yangyi Chen, Xingyao Wang, Manling Li, Derek Hoiem, Heng Ji
- Abstract要約: 最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
- 参考スコア(独自算出の注目度): 82.88378582161717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art vision-language models (VLMs) still have limited performance
in structural knowledge extraction, such as relations between objects. In this
work, we present ViStruct, a training framework to learn VLMs for effective
visual structural knowledge extraction. Two novel designs are incorporated.
First, we propose to leverage the inherent structure of programming language to
depict visual structural information. This approach enables explicit and
consistent representation of visual structural information of multiple
granularities, such as concepts, relations, and events, in a well-organized
structured format. Second, we introduce curriculum-based learning for VLMs to
progressively comprehend visual structures, from fundamental visual concepts to
intricate event structures. Our intuition is that lower-level knowledge may
contribute to complex visual structure understanding. Furthermore, we compile
and release a collection of datasets tailored for visual structural knowledge
extraction. We adopt a weakly-supervised approach to directly generate visual
event structures from captions for ViStruct training, capitalizing on abundant
image-caption pairs from the web. In experiments, we evaluate ViStruct on
visual structure prediction tasks, demonstrating its effectiveness in improving
the understanding of visual structures. The code is public at
\url{https://github.com/Yangyi-Chen/vi-struct}.
- Abstract(参考訳): 最先端の視覚言語モデル(vlms)は、オブジェクト間の関係のような構造的知識抽出の性能に制限がある。
本稿では,視覚構造知識を効果的に抽出するためのVLM学習フレームワークであるViStructを紹介する。
2つの新しいデザインが組み込まれている。
まず,視覚構造情報を記述するために,プログラミング言語の固有構造を活用することを提案する。
このアプローチは、よく組織化された構造化形式で、概念、関係、イベントなど、複数の粒度の視覚的構造情報の明確かつ一貫した表現を可能にする。
第2に,視覚概念から複雑なイベント構造に至るまで,視覚構造を段階的に理解するためのカリキュラムベースの学習を導入する。
我々の直感では、低レベルの知識が複雑な視覚構造理解に寄与する可能性がある。
さらに、視覚構造知識抽出に適したデータセットのコレクションをコンパイルしてリリースする。
ViStruct トレーニング用キャプションから視覚イベント構造を直接生成するための弱教師付きアプローチを採用し,Web から豊富な画像キャプチャペアを活用する。
実験では,視覚構造予測タスクのバイストラクタの評価を行い,視覚構造理解の改善に有効性を示す。
コードは \url{https://github.com/Yangyi-Chen/vi-struct} で公開されている。
関連論文リスト
- Learning Correlation Structures for Vision Transformers [93.22434535223587]
構造自己注意(StructSA)と呼ばれる新しい注意機構を導入する。
我々は、畳み込みによるキー-クエリ相関の時空間構造を認識して注意マップを生成する。
これは、シーンレイアウト、オブジェクトの動き、オブジェクト間の関係など、画像やビデオのリッチな構造パターンを効果的に活用する。
論文 参考訳(メタデータ) (2024-04-05T07:13:28Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Task-specific Scene Structure Representations [13.775485887433815]
本研究では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
論文 参考訳(メタデータ) (2023-01-02T08:25:47Z) - Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文 参考訳(メタデータ) (2022-07-09T05:40:08Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Learning to Incorporate Structure Knowledge for Image Inpainting [20.93448933499842]
本稿では,画像の描画を支援するために,画像構造知識を取り入れたマルチタスク学習フレームワークを開発する。
第一のアイデアは、共有ジェネレータをトレーニングして、破損した画像と対応する構造を同時に完成させることである。
また,学習した構造特徴を塗布プロセスに明示的に埋め込む構造埋め込み方式も導入する。
論文 参考訳(メタデータ) (2020-02-11T02:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。