論文の概要: RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning
- arxiv url: http://arxiv.org/abs/2204.11167v1
- Date: Sun, 24 Apr 2022 02:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 04:47:03.506335
- Title: RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning
- Title(参考訳): RelViT:ビジュアルリレーショナル推論のための概念誘導型視覚変換器
- Authors: Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke
Zhu, Song-Chun Zhu, Anima Anandkumar
- Abstract要約: 私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
- 参考スコア(独自算出の注目度): 139.0548263507796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about visual relationships is central to how humans interpret the
visual world. This task remains challenging for current deep learning
algorithms since it requires addressing three key technical problems jointly:
1) identifying object entities and their properties, 2) inferring semantic
relations between pairs of entities, and 3) generalizing to novel
object-relation combinations, i.e., systematic generalization. In this work, we
use vision transformers (ViTs) as our base model for visual reasoning and make
better use of concepts defined as object entities and their relations to
improve the reasoning ability of ViTs. Specifically, we introduce a novel
concept-feature dictionary to allow flexible image feature retrieval at
training time with concept keys. This dictionary enables two new concept-guided
auxiliary tasks: 1) a global task for promoting relational reasoning, and 2) a
local task for facilitating semantic object-centric correspondence learning. To
examine the systematic generalization of visual reasoning models, we introduce
systematic splits for the standard HICO and GQA benchmarks. We show the
resulting model, Concept-guided Vision Transformer (or RelViT for short)
significantly outperforms prior approaches on HICO and GQA by 16% and 13% in
the original split, and by 43% and 18% in the systematic split. Our ablation
analyses also reveal our model's compatibility with multiple ViT variants and
robustness to hyper-parameters.
- Abstract(参考訳): 視覚関係に関する推論は、人間が視覚の世界をどう解釈するかの中心である。
このタスクは3つの重要な技術的課題を共同で解決する必要があるため、現在のディープラーニングアルゴリズムでは依然として困難である。
1)オブジェクトエンティティとそのプロパティの識別。
2)一対の実体間の意味関係を推測すること、及び
3)新しい対象-関係の組み合わせ、すなわち体系的一般化への一般化。
本研究では,視覚推論のベースモデルとして視覚トランスフォーマー(vits)を使用し,オブジェクトエンティティとして定義された概念とその関係をよりよく活用し,vitsの推論能力を向上させる。
具体的には,概念キーを用いた学習時にフレキシブルな画像特徴検索を可能にする新しい概念特徴辞書を提案する。
この辞書は2つの新しい概念誘導補助タスクを可能にする。
1)関係推論推進のためのグローバルタスク、及び
2)セマンティックオブジェクト中心の対応学習を容易にするローカルタスク。
視覚的推論モデルの体系的一般化を検討するために,標準HICOおよびGQAベンチマークの系統的分割を導入する。
その結果,概念誘導型視覚変換器(略してRelViT)は,HICOとGQAの先行アプローチを16%,GQAが13%,系統分割が43%,系統分割が18%で有意に上回った。
我々のアブレーション分析は、複数のViT変異体との互換性とハイパーパラメータに対するロバスト性も明らかにしている。
関連論文リスト
- Towards Flexible Visual Relationship Segmentation [25.890273232954055]
視覚的関係理解は、人間と物体の相互作用の検出、シーングラフの生成、およびタスクを参照する関係において別々に研究されている。
本稿では,FleVRSを提案する。FleVRSは,上述の3つの側面を,標準および即時的な視覚的関係のセグメンテーションにおいてシームレスに統合する単一モデルである。
当社のフレームワークは,既存のモデルを,標準,即応性,オープンボキャブラリタスクで上回ります。
論文 参考訳(メタデータ) (2024-08-15T17:57:38Z) - Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Interactive Visual Task Learning for Robots [4.114444605090135]
本稿では,人間ユーザとの言語対話を通じて,ロボットが新しい視覚概念やタスクを学習するための枠組みを提案する。
概念階層内の親ノードに新しい概念の情報を付加するHi-Viscontを提案する。
視覚的なタスクを言語アノテーション付きシーングラフとして表現し、デモされたタスクゼロショットの新規な置換をin-situで作成する。
論文 参考訳(メタデータ) (2023-12-20T17:38:04Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation [12.977857322594206]
一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
論文 参考訳(メタデータ) (2022-12-19T09:47:27Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。