論文の概要: SAViR-T: Spatially Attentive Visual Reasoning with Transformers
- arxiv url: http://arxiv.org/abs/2206.09265v1
- Date: Sat, 18 Jun 2022 18:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 01:03:39.891370
- Title: SAViR-T: Spatially Attentive Visual Reasoning with Transformers
- Title(参考訳): savir-t:トランスフォーマーを用いた空間的注意視覚推論
- Authors: Pritish Sahu, Kalliopi Basioti, Vladimir Pavlovic
- Abstract要約: 本稿では,Raven's Progressives (RPM) に具現化された視覚的推論問題のファミリに対して,新しい計算モデル "SAR-T" を提案する。
本モデルは,パズル内の各画像内の視覚的要素の空間的意味を符号化された視覚的トークンとみなし,画像内および画像間のトークン依存性を学習する。
我々は,SAViR-Tが従来のモデルの性能をかなり上回りながら,視覚的推論のための新たな最先端技術を構築していることを示す。
- 参考スコア(独自算出の注目度): 26.62034916818108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel computational model, "SAViR-T", for the family of visual
reasoning problems embodied in the Raven's Progressive Matrices (RPM). Our
model considers explicit spatial semantics of visual elements within each image
in the puzzle, encoded as spatio-visual tokens, and learns the intra-image as
well as the inter-image token dependencies, highly relevant for the visual
reasoning task. Token-wise relationship, modeled through a transformer-based
SAViR-T architecture, extract group (row or column) driven representations by
leveraging the group-rule coherence and use this as the inductive bias to
extract the underlying rule representations in the top two row (or column) per
token in the RPM. We use this relation representations to locate the correct
choice image that completes the last row or column for the RPM. Extensive
experiments across both synthetic RPM benchmarks, including RAVEN, I-RAVEN,
RAVEN-FAIR, and PGM, and the natural image-based "V-PROM" demonstrate that
SAViR-T sets a new state-of-the-art for visual reasoning, exceeding prior
models' performance by a considerable margin.
- Abstract(参考訳): 本稿では,Raven's Progressive Matrices (RPM) に具現化された視覚的推論問題に対する新しい計算モデル "SAViR-T" を提案する。
本モデルでは,各画像内の視覚的要素の明示的な空間的意味論を,空間的・視覚的なトークンとして符号化し,画像内および画像間トークン依存性を学習する。
トランスフォーマーベースのsavir-tアーキテクチャでモデル化されたトークン関係は、グループルールコヒーレンスを利用してグループ(行または列)駆動の表現を抽出し、これをインダクティブバイアスとして、rpmのトークン毎に上位2行(またはカラム)のルール表現を抽出する。
我々はこの関係表現を用いて、RPMの最終行または列を完成させる正しい選択画像を見つける。
RAVEN、I-RAVEN、RAVEN-FAIR、PGMといった合成RPMベンチマークと自然画像ベースの「V-PROM」の双方にわたる広範な実験により、SAViR-Tは視覚的推論のための新しい最先端技術を構築し、以前のモデルの性能をかなり上回った。
関連論文リスト
- Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Contextual Vision Transformers for Robust Representation Learning [10.459236278849938]
本研究ではContextual Vision Transformer(ContextViT)を導入し,複数のグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成する。
ContextViTには、グループ固有の情報をカプセル化するための追加のコンテキストトークンが含まれている。
分布シフトの中で,ContextViTは安定な画像デファチュアライゼーションの学習に優れることを示す。
論文 参考訳(メタデータ) (2023-05-30T20:31:26Z) - Symbolic Expression Transformer: A Computer Vision Approach for Symbolic
Regression [9.978824294461196]
シンボリック回帰(英: Symbolic Regression、SR)は、データに最も適合する数学的表現を自動的に見つけるための回帰分析の一種である。
人間はその曲線に基づいて数学的表現を推測できるという事実に触発され、記号表現変換器(SET)を提案する。
SETは、SRのコンピュータビジョンの観点からのサンプル非依存モデルである。
論文 参考訳(メタデータ) (2022-05-24T05:35:46Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。