論文の概要: SAViR-T: Spatially Attentive Visual Reasoning with Transformers
- arxiv url: http://arxiv.org/abs/2206.09265v1
- Date: Sat, 18 Jun 2022 18:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 01:03:39.891370
- Title: SAViR-T: Spatially Attentive Visual Reasoning with Transformers
- Title(参考訳): savir-t:トランスフォーマーを用いた空間的注意視覚推論
- Authors: Pritish Sahu, Kalliopi Basioti, Vladimir Pavlovic
- Abstract要約: 本稿では,Raven's Progressives (RPM) に具現化された視覚的推論問題のファミリに対して,新しい計算モデル "SAR-T" を提案する。
本モデルは,パズル内の各画像内の視覚的要素の空間的意味を符号化された視覚的トークンとみなし,画像内および画像間のトークン依存性を学習する。
我々は,SAViR-Tが従来のモデルの性能をかなり上回りながら,視覚的推論のための新たな最先端技術を構築していることを示す。
- 参考スコア(独自算出の注目度): 26.62034916818108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel computational model, "SAViR-T", for the family of visual
reasoning problems embodied in the Raven's Progressive Matrices (RPM). Our
model considers explicit spatial semantics of visual elements within each image
in the puzzle, encoded as spatio-visual tokens, and learns the intra-image as
well as the inter-image token dependencies, highly relevant for the visual
reasoning task. Token-wise relationship, modeled through a transformer-based
SAViR-T architecture, extract group (row or column) driven representations by
leveraging the group-rule coherence and use this as the inductive bias to
extract the underlying rule representations in the top two row (or column) per
token in the RPM. We use this relation representations to locate the correct
choice image that completes the last row or column for the RPM. Extensive
experiments across both synthetic RPM benchmarks, including RAVEN, I-RAVEN,
RAVEN-FAIR, and PGM, and the natural image-based "V-PROM" demonstrate that
SAViR-T sets a new state-of-the-art for visual reasoning, exceeding prior
models' performance by a considerable margin.
- Abstract(参考訳): 本稿では,Raven's Progressive Matrices (RPM) に具現化された視覚的推論問題に対する新しい計算モデル "SAViR-T" を提案する。
本モデルでは,各画像内の視覚的要素の明示的な空間的意味論を,空間的・視覚的なトークンとして符号化し,画像内および画像間トークン依存性を学習する。
トランスフォーマーベースのsavir-tアーキテクチャでモデル化されたトークン関係は、グループルールコヒーレンスを利用してグループ(行または列)駆動の表現を抽出し、これをインダクティブバイアスとして、rpmのトークン毎に上位2行(またはカラム)のルール表現を抽出する。
我々はこの関係表現を用いて、RPMの最終行または列を完成させる正しい選択画像を見つける。
RAVEN、I-RAVEN、RAVEN-FAIR、PGMといった合成RPMベンチマークと自然画像ベースの「V-PROM」の双方にわたる広範な実験により、SAViR-Tは視覚的推論のための新しい最先端技術を構築し、以前のモデルの性能をかなり上回った。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Contextual Vision Transformers for Robust Representation Learning [10.459236278849938]
本研究ではContextual Vision Transformer(ContextViT)を導入し,複数のグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成する。
ContextViTには、グループ固有の情報をカプセル化するための追加のコンテキストトークンが含まれている。
分布シフトの中で,ContextViTは安定な画像デファチュアライゼーションの学習に優れることを示す。
論文 参考訳(メタデータ) (2023-05-30T20:31:26Z) - Rotation and Translation Invariant Representation Learning with Implicit
Neural Representations [5.478764356647437]
IRL-INRは,従来検討されていたものと比較して,より複雑な画像上の不整合意味表現を効果的に学習できることを示す。
これらの意味表現はSCANとうまく相乗し、最先端の教師なしクラスタリング結果を生成する。
論文 参考訳(メタデータ) (2023-04-27T07:33:31Z) - Symbolic Expression Transformer: A Computer Vision Approach for Symbolic
Regression [9.978824294461196]
シンボリック回帰(英: Symbolic Regression、SR)は、データに最も適合する数学的表現を自動的に見つけるための回帰分析の一種である。
人間はその曲線に基づいて数学的表現を推測できるという事実に触発され、記号表現変換器(SET)を提案する。
SETは、SRのコンピュータビジョンの観点からのサンプル非依存モデルである。
論文 参考訳(メタデータ) (2022-05-24T05:35:46Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CoMIR: Contrastive Multimodal Image Representation for Registration [4.543268895439618]
我々は,CoMIR(Contrastive Multimodal Image Representations)と呼ばれる,共有された高密度画像表現を学習するためのコントラスト符号化を提案する。
CoMIRは、十分に類似した画像構造が欠如しているため、既存の登録方法がしばしば失敗するマルチモーダル画像の登録を可能にする。
論文 参考訳(メタデータ) (2020-06-11T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。