論文の概要: Cross-Modal Scene Semantic Alignment for Image Complexity Assessment
- arxiv url: http://arxiv.org/abs/2510.18377v1
- Date: Tue, 21 Oct 2025 07:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.140288
- Title: Cross-Modal Scene Semantic Alignment for Image Complexity Assessment
- Title(参考訳): 画像複雑度評価のためのクロスモーダルシーンセマンティックアライメント
- Authors: Yuqing Luo, Yixiao Li, Jiang Liu, Jun Fu, Hadi Amirpour, Guanghui Yue, Baoquan Zhao, Padraig Corcoran, Hantao Liu, Wei Zhou,
- Abstract要約: クロスモーダルなシーンセマンティック情報は、様々なコンピュータビジョンタスクにおいて重要な役割を果たすことが示されている。
ICA性能を向上させるために,Cross-Modal Scene Semantic Alignment (CM-SSA) と呼ばれる新しいICA手法を提案する。
いくつかのICAデータセットの実験により、提案したCM-SSAは最先端のアプローチよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 36.74012235496745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image complexity assessment (ICA) is a challenging task in perceptual evaluation due to the subjective nature of human perception and the inherent semantic diversity in real-world images. Existing ICA methods predominantly rely on hand-crafted or shallow convolutional neural network-based features of a single visual modality, which are insufficient to fully capture the perceived representations closely related to image complexity. Recently, cross-modal scene semantic information has been shown to play a crucial role in various computer vision tasks, particularly those involving perceptual understanding. However, the exploration of cross-modal scene semantic information in the context of ICA remains unaddressed. Therefore, in this paper, we propose a novel ICA method called Cross-Modal Scene Semantic Alignment (CM-SSA), which leverages scene semantic alignment from a cross-modal perspective to enhance ICA performance, enabling complexity predictions to be more consistent with subjective human perception. Specifically, the proposed CM-SSA consists of a complexity regression branch and a scene semantic alignment branch. The complexity regression branch estimates image complexity levels under the guidance of the scene semantic alignment branch, while the scene semantic alignment branch is used to align images with corresponding text prompts that convey rich scene semantic information by pair-wise learning. Extensive experiments on several ICA datasets demonstrate that the proposed CM-SSA significantly outperforms state-of-the-art approaches. Codes are available at https://github.com/XQ2K/First-Cross-Model-ICA.
- Abstract(参考訳): 画像複雑性評価(ICA)は、人間の知覚の主観的性質と実世界の画像に固有の意味的多様性により、知覚的評価において難しい課題である。
既存のICA手法は、主に手作りまたは浅い畳み込みニューラルネットワークに基づく単一の視覚的モダリティの特徴に依存しており、画像の複雑さと密接に関連する認識された表現を完全に捉えるには不十分である。
近年,様々なコンピュータビジョンタスク,特に知覚的理解に関わるタスクにおいて,クロスモーダルなシーンセマンティック情報が重要な役割を担っていることが示されている。
しかし,ICAの文脈におけるクロスモーダルなシーンセマンティック情報の探索はいまだに行われていない。
そこで,本稿では,Cross-Modal Scene Semantic Alignment (CM-SSA) と呼ばれる新しいICA手法を提案する。
具体的には、CM-SSAは複雑性回帰分枝とシーンセマンティックアライメント分枝から構成される。
複雑性回帰枝は、シーン意味アライメントブランチのガイダンスに基づいて画像複雑性レベルを推定し、シーン意味アライメントブランチは、ペアワイズ学習によりリッチなシーン意味情報を伝達する対応するテキストプロンプトと画像のアライメントに使用される。
いくつかのICAデータセットに対する大規模な実験により、提案したCM-SSAは最先端のアプローチよりも大幅に優れていることが示された。
コードはhttps://github.com/XQ2K/First-Cross-Model-ICAで公開されている。
関連論文リスト
- Dynamic Scene Understanding from Vision-Language Representations [11.833972582610027]
本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-20T18:33:46Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。