論文の概要: Semantic-Syntactic Discrepancy in Images (SSDI): Learning Meaning and Order of Features from Natural Images
- arxiv url: http://arxiv.org/abs/2401.17515v2
- Date: Sat, 26 Apr 2025 04:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.634646
- Title: Semantic-Syntactic Discrepancy in Images (SSDI): Learning Meaning and Order of Features from Natural Images
- Title(参考訳): 画像のセマンティック・シンタクティックな相違(SSDI):自然画像からの特徴の学習と順序
- Authors: Chun Tao, Timur Ibrayev, Kaushik Roy,
- Abstract要約: 画像意味論」と「画像構文」からなる「画像文法」の概念を提案する。
自然画像のみから視覚要素や環境の画像文法を学習するための半教師付き2段階手法を提案する。
提案手法の有効性は,CelebA および SUN-RGBD データセットから生成された破損に対して,70% から90% までの検出率を達成することによって実証される。
- 参考スコア(独自算出の注目度): 7.148054923510877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite considerable progress in image classification tasks, classification models seem unaffected by the images that significantly deviate from those that appear natural to human eyes. Specifically, while human perception can easily identify abnormal appearances or compositions in images, classification models overlook any alterations in the arrangement of object parts as long as they are present in any order, even if unnatural. Hence, this work exposes the vulnerability of having semantic and syntactic discrepancy in images (SSDI) in the form of corruptions that remove or shuffle image patches or present images in the form of puzzles. To address this vulnerability, we propose the concept of "image grammar", comprising "image semantics" and "image syntax". Image semantics pertains to the interpretation of parts or patches within an image, whereas image syntax refers to the arrangement of these parts to form a coherent object. We present a semi-supervised two-stage method for learning the image grammar of visual elements and environments solely from natural images. While the first stage learns the semantic meaning of individual object parts, the second stage learns how their relative arrangement constitutes an entire object. The efficacy of the proposed approach is then demonstrated by achieving SSDI detection rates ranging from 70% to 90% on corruptions generated from CelebA and SUN-RGBD datasets. Code is publicly available at: https://github.com/ChunTao1999/SSDI/
- Abstract(参考訳): 画像分類タスクのかなりの進歩にもかかわらず、分類モデルは人間の目にとって自然に見えるものから著しく逸脱した画像によって影響を受けないように見える。
具体的には、人間の知覚は画像の異常な外観や構成を容易に識別できるが、分類モデルは、たとえ不自然であっても、任意の順序で存在する限り、対象部品の配置の変化を見落としている。
したがって、この研究は、画像パッチを削除またはシャッフルしたり、パズルの形で画像を提示したりする汚職の形で、画像(SSDI)に意味的および統語的相違を持つという脆弱性を露呈する。
この脆弱性に対処するため、「画像意味論」と「画像構文」からなる「画像文法」の概念を提案する。
イメージセマンティクスは画像内の部分やパッチの解釈に関係し、画像構文はこれらの部分の配置をコヒーレントなオブジェクトとして扱う。
自然画像のみから視覚要素や環境の画像文法を学習するための半教師付き2段階手法を提案する。
第1段階は個々の対象部分の意味を学習するが、第2段階は相対的な配置がどのようにオブジェクト全体を構成するかを学ぶ。
提案手法の有効性は,CelebAデータセットとSUN-RGBDデータセットから生成された破損に対して,SSDI検出率を70%から90%に向上させることによって実証される。
コードは、https://github.com/ChunTao1999/SSDI/で公開されている。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Towards Visual Syntactical Understanding [8.530698703124159]
本稿では,ディープニューラルネットワーク(DNN)が視覚的構文理解を備えているかを検討する。
画像中の「単語」を検出し, (ii) 検出された単語をオートエンコーダを用いて順次マスクし, 再構成し, (iii) オリジナルの部分と再構成された部分を各場所で比較し, 統語的正当性を決定する。
CelebAとAFHQのデータセットから,それぞれ92.10%,90.89%の分類精度を得た。
論文 参考訳(メタデータ) (2024-01-30T23:05:43Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Semantic Photo Manipulation with a Generative Image Prior [86.01714863596347]
GANは、ユーザスケッチ、テキスト、セマンティックラベルなどの入力に条件付きイメージを合成することができる。
GANが入力画像を正確に再現することは困難である。
本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。
提案手法は,入力画像の外観と一致して,入力画像を正確に再構成し,新たなコンテンツを合成することができる。
論文 参考訳(メタデータ) (2020-05-15T18:22:05Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。