論文の概要: Towards Image Semantics and Syntax Sequence Learning
- arxiv url: http://arxiv.org/abs/2401.17515v1
- Date: Wed, 31 Jan 2024 00:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:05:34.076691
- Title: Towards Image Semantics and Syntax Sequence Learning
- Title(参考訳): イメージセマンティクスと構文シーケンス学習に向けて
- Authors: Chun Tao, Timur Ibrayev, Kaushik Roy
- Abstract要約: 画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
- 参考スコア(独自算出の注目度): 8.033697392628424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks and vision transformers have achieved
outstanding performance in machine perception, particularly for image
classification. Although these image classifiers excel at predicting
image-level class labels, they may not discriminate missing or shifted parts
within an object. As a result, they may fail to detect corrupted images that
involve missing or disarrayed semantic information in the object composition.
On the contrary, human perception easily distinguishes such corruptions. To
mitigate this gap, we introduce the concept of "image grammar", consisting of
"image semantics" and "image syntax", to denote the semantics of parts or
patches of an image and the order in which these parts are arranged to create a
meaningful object. To learn the image grammar relative to a class of visual
objects/scenes, we propose a weakly supervised two-stage approach. In the first
stage, we use a deep clustering framework that relies on iterative clustering
and feature refinement to produce part-semantic segmentation. In the second
stage, we incorporate a recurrent bi-LSTM module to process a sequence of
semantic segmentation patches to capture the image syntax. Our framework is
trained to reason over patch semantics and detect faulty syntax. We benchmark
the performance of several grammar learning models in detecting patch
corruptions. Finally, we verify the capabilities of our framework in Celeb and
SUNRGBD datasets and demonstrate that it can achieve a grammar validation
accuracy of 70 to 90% in a wide variety of semantic and syntactical corruption
scenarios.
- Abstract(参考訳): 畳み込みニューラルネットワークと視覚トランスフォーマーは、特に画像分類において、機械知覚において優れた性能を達成している。
これらの画像分類器は、画像レベルのクラスラベルの予測に優れているが、オブジェクト内の欠落やシフト部分の判別には適さない。
その結果、オブジェクト構成に欠落または非表示の意味情報を含む破損したイメージを検出できない可能性がある。
逆に、人間の知覚はそのような腐敗を区別しやすい。
画像意味論」と「画像構文」からなる「画像文法」の概念を導入し、画像の一部やパッチの意味やそれらの部分の順序を表現し、有意義なオブジェクトを作成する。
視覚オブジェクト/シーンのクラスに対する画像文法を学ぶために,弱い教師付き二段階アプローチを提案する。
第1段階では、反復的なクラスタリングと機能改良に依存した深いクラスタリングフレームワークを使用して、パートセグメンテーションを作成します。
第2段階では、リカレントなbi-LSTMモジュールを組み込んで、セマンティックセグメンテーションパッチのシーケンスを処理し、画像構文をキャプチャする。
私たちのフレームワークはパッチセマンティクスを推論し、欠陥構文を検出するように訓練されています。
パッチ破損検出における文法学習モデルの性能をベンチマークする。
最後に,CelebおよびSUNRGBDデータセットにおけるフレームワークの機能を検証するとともに,多種多様な意味的・構文的腐敗シナリオにおいて,70~90%の文法検証精度を達成可能であることを示す。
関連論文リスト
- TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。