論文の概要: MS-Glance: Non-semantic context vectors and the applications in supervising image reconstruction
- arxiv url: http://arxiv.org/abs/2410.23577v1
- Date: Thu, 31 Oct 2024 02:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:30.042237
- Title: MS-Glance: Non-semantic context vectors and the applications in supervising image reconstruction
- Title(参考訳): MS-Glance:非意味文脈ベクトルと画像再構成の監視への応用
- Authors: Ziqi Gao, Wendi Yang, Yujia Li, Lei Xing, S. Kevin Zhou,
- Abstract要約: 非意味的文脈情報は視覚認識に不可欠である。
生物学的に通知される非意味的文脈記述子 textbfMS-Glance と Glance Index Measure を提案する。
MS-Glanceは、自然画像と医療画像の両方において、既存の画像復元損失よりも優れています。
- 参考スコア(独自算出の注目度): 21.636154416272568
- License:
- Abstract: Non-semantic context information is crucial for visual recognition, as the human visual perception system first uses global statistics to process scenes rapidly before identifying specific objects. However, while semantic information is increasingly incorporated into computer vision tasks such as image reconstruction, non-semantic information, such as global spatial structures, is often overlooked. To bridge the gap, we propose a biologically informed non-semantic context descriptor, \textbf{MS-Glance}, along with the Glance Index Measure for comparing two images. A Global Glance vector is formulated by randomly retrieving pixels based on a perception-driven rule from an image to form a vector representing non-semantic global context, while a local Glance vector is a flattened local image window, mimicking a zoom-in observation. The Glance Index is defined as the inner product of two standardized sets of Glance vectors. We evaluate the effectiveness of incorporating Glance supervision in two reconstruction tasks: image fitting with implicit neural representation (INR) and undersampled MRI reconstruction. Extensive experimental results show that MS-Glance outperforms existing image restoration losses across both natural and medical images. The code is available at \url{https://github.com/Z7Gao/MSGlance}.
- Abstract(参考訳): 人間の視覚認識システムは、まずグローバル統計を用いて、特定の物体を特定する前に、シーンを迅速に処理する。
しかし、画像再構成などのコンピュータビジョンタスクに意味情報が組み込まれている一方で、グローバル空間構造のような非意味情報は見過ごされがちである。
このギャップを埋めるため,2つの画像を比較するためのGlance Index Measureとともに,生物学的に情報を得た非意味的文脈記述子 \textbf{MS-Glance} を提案する。
画像から知覚駆動規則に基づいて画素をランダムに検索してGlobal Glanceベクトルを定式化し、非意味的グローバルコンテキストを表すベクトルを形成する一方、局所Glanceベクトルは平坦な局所画像ウィンドウであり、ズームイン観察を模倣する。
グランス指数は、2つの標準化されたグランスベクトルの集合の内部積として定義される。
暗黙的神経表現(INR)とアンダーサンプされたMRI再構成の2つの再建作業において、ガンス監督を取り入れることの有効性を評価する。
実験の結果,MS-Glanceは自然画像と医用画像の両方において,既存の画像修復損失よりも優れていた。
コードは \url{https://github.com/Z7Gao/MSGlance} で公開されている。
関連論文リスト
- LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。
CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-06-16T08:37:24Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition [26.571128345615108]
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
論文 参考訳(メタデータ) (2022-07-21T01:41:53Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。