論文の概要: SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2212.09329v1
- Date: Mon, 19 Dec 2022 09:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:41:32.296849
- Title: SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation
- Title(参考訳): SrTR:シーングラフ生成のための視覚言語知識を用いた自己推論変換器
- Authors: Yuxiang Zhang, Zhenbo Liu, Shuai Wang
- Abstract要約: 一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
- 参考スコア(独自算出の注目度): 12.977857322594206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objects in a scene are not always related. The execution efficiency of the
one-stage scene graph generation approaches are quite high, which infer the
effective relation between entity pairs using sparse proposal sets and a few
queries. However, they only focus on the relation between subject and object in
triplet set subject entity, predicate entity, object entity, ignoring the
relation between subject and predicate or predicate and object, and the model
lacks self-reasoning ability. In addition, linguistic modality has been
neglected in the one-stage method. It is necessary to mine linguistic modality
knowledge to improve model reasoning ability. To address the above-mentioned
shortcomings, a Self-reasoning Transformer with Visual-linguistic Knowledge
(SrTR) is proposed to add flexible self-reasoning ability to the model. An
encoder-decoder architecture is adopted in SrTR, and a self-reasoning decoder
is developed to complete three inferences of the triplet set, s+o-p, s+p-o and
p+o-s. Inspired by the large-scale pre-training image-text foundation models,
visual-linguistic prior knowledge is introduced and a visual-linguistic
alignment strategy is designed to project visual representations into semantic
spaces with prior knowledge to aid relational reasoning. Experiments on the
Visual Genome dataset demonstrate the superiority and fast inference ability of
the proposed method.
- Abstract(参考訳): シーン内のオブジェクトが常に関連しているとは限らない。
1段階グラフ生成アプローチの実行効率は非常に高く、スパースプロポーザルセットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
しかし、それらは三重項集合対象実体、述語実体、対象実体における主語と対象の関係にのみ焦点をあて、主語と述語、述語と対象の関係を無視し、モデルには自己合理化能力が欠けている。
また,一段階法では言語的モダリティが無視されている。
モデル推論能力を向上させるためには,言語的モダリティの知識をマイニングする必要がある。
上記の欠点に対処するため,視覚言語知識を用いた自己推論変換器(SrTR)を提案し,モデルに柔軟な自己推論機能を加える。
エンコーダデコーダアーキテクチャはSrTRで採用され、自己推論デコーダは三重項集合 s+o-p, s+p-o, p+o-s の3つの推論を完備化する。
大規模な事前学習された画像テキスト基礎モデルに触発されて、視覚言語的事前知識が導入され、視覚言語的アライメント戦略は、関係推論を支援する事前知識を持つ意味空間に視覚表現を投影するように設計されている。
Visual Genomeデータセットの実験では,提案手法の優位性と高速な推論能力を示す。
関連論文リスト
- InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。