Fugu-MT 論文翻訳(概要): HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification

論文の概要: HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification

arxiv url: http://arxiv.org/abs/2407.16244v1
Date: Tue, 23 Jul 2024 07:31:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:16:07.946110
Title: HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification
Title（参考訳）: HSVLT:マルチラベル画像分類のための階層的スケール対応ビジョンランゲージ変換器
Authors: Shuyi Ouyang, Hongyi Wang, Ziwei Niu, Zhenjia Bai, Shiao Xie, Yingying Xu, Ruofeng Tong, Yen-Wei Chen, Lanfen Lin,
Abstract要約: 厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
参考スコア（独自算出の注目度）: 15.129037250680582
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The task of multi-label image classification involves recognizing multiple objects within a single image. Considering both valuable semantic information contained in the labels and essential visual features presented in the image, tight visual-linguistic interactions play a vital role in improving classification performance. Moreover, given the potential variance in object size and appearance within a single image, attention to features of different scales can help to discover possible objects in the image. Recently, Transformer-based methods have achieved great success in multi-label image classification by leveraging the advantage of modeling long-range dependencies, but they have several limitations. Firstly, existing methods treat visual feature extraction and cross-modal fusion as separate steps, resulting in insufficient visual-linguistic alignment in the joint semantic space. Additionally, they only extract visual features and perform cross-modal fusion at a single scale, neglecting objects with different characteristics. To address these issues, we propose a Hierarchical Scale-Aware Vision-Language Transformer (HSVLT) with two appealing designs: (1)~A hierarchical multi-scale architecture that involves a Cross-Scale Aggregation module, which leverages joint multi-modal features extracted from multiple scales to recognize objects of varying sizes and appearances in images. (2)~Interactive Visual-Linguistic Attention, a novel attention mechanism module that tightly integrates cross-modal interaction, enabling the joint updating of visual, linguistic and multi-modal features. We have evaluated our method on three benchmark datasets. The experimental results demonstrate that HSVLT surpasses state-of-the-art methods with lower computational cost.
Abstract（参考訳）: マルチラベル画像分類の課題は、単一の画像内の複数のオブジェクトを認識することである。ラベルに含まれる貴重な意味情報と画像に提示される重要な視覚的特徴の両方を考慮すると、密接な視覚言語的相互作用は分類性能を向上させる上で重要な役割を担っている。さらに、単一の画像内のオブジェクトサイズと外観の潜在的なばらつきを考えると、異なるスケールの特徴への注意は、画像内の可能なオブジェクトを見つけるのに役立ちます。近年,Transformer ベースの手法は,長距離依存のモデリングの利点を生かして,マルチラベル画像分類において大きな成功を収めているが,いくつかの制限がある。まず、既存の方法では、視覚的特徴抽出とモーダル融合を別々のステップとして扱うことで、関節意味空間における視覚言語的アライメントが不十分になる。さらに、視覚的特徴のみを抽出し、異なる特徴を持つ物体を無視して、単一のスケールでクロスモーダル融合を行う。これらの課題に対処するために, 階層型階層型視覚言語変換器 (HSVLT) を提案する。(1) - 複数スケールから抽出した複数スケールの複数モーダル特徴を利用するクロススケールアグリゲーションモジュールを含む階層型マルチスケールアーキテクチャにより, 画像の大きさや外観の異なるオブジェクトを認識する。 2)~対話型視覚言語注意(Interactive Visual-Linguistic Attention)は、視覚的・言語的・マルチモーダル的特徴の同時更新を可能にする、相互モーダル相互作用を密に統合する新しい注意機構モジュールである。提案手法を3つのベンチマークデータセットで評価した。実験の結果,HSVLTは計算コストの低い最先端手法を上回ることがわかった。

関連論文リスト

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
PSVMA+: Exploring Multi-granularity Semantic-visual Adaption for Generalized Zero-shot Learning [116.33775552866476]
一般化ゼロショット学習(GZSL)は、目に見えない領域の知識を用いて、見えないものを識別する試みである。 GZSLは、属性の多様性とインスタンスの多様性により、視覚的セマンティックな対応が不十分である。本稿では,不整合の解消に十分な視覚要素を収集できる多粒性プログレッシブ・セマンティック・視覚適応ネットワークを提案する。
論文参考訳（メタデータ） (2024-10-15T12:49:33Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文参考訳（メタデータ） (2024-05-29T10:19:11Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文参考訳（メタデータ） (2022-04-22T14:38:40Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)
w-Net: Dual Supervised Medical Image Segmentation Model with Multi-Dimensional Attention and Cascade Multi-Scale Convolution [47.56835064059436]
医療画像中の小物体の正確なセグメンテーションを予測するために, カスケード型マルチスケール畳み込みを用いた多次元アテンションセグメンテーションモデルを提案する。提案手法は, KiTS19, Decathlon-10 の Pancreas CT, MICCAI 2018 LiTS Challenge の3つのデータセットを用いて評価した。
論文参考訳（メタデータ） (2020-11-15T13:54:22Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)
Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文参考訳（メタデータ） (2020-01-06T14:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。