論文の概要: Describe-to-Score: Text-Guided Efficient Image Complexity Assessment
- arxiv url: http://arxiv.org/abs/2509.16609v1
- Date: Sat, 20 Sep 2025 10:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.884423
- Title: Describe-to-Score: Text-Guided Efficient Image Complexity Assessment
- Title(参考訳): Describe-to-Score: テキストガイドによる画像複雑度評価
- Authors: Shipeng Liu, Zhonglin Zhang, Dengfeng Chen, Liang Zhao,
- Abstract要約: コンピュータビジョンにおいて、画像複雑性(IC)の正確な評価が重要である。
ICモデリングのための視覚テキスト融合を導入する。
本稿では,事前学習された視覚言語モデルを用いて画像キャプションを生成するD2S(Describe-to-Score)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.744778242421451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately assessing image complexity (IC) is critical for computer vision, yet most existing methods rely solely on visual features and often neglect high-level semantic information, limiting their accuracy and generalization. We introduce vision-text fusion for IC modeling. This approach integrates visual and textual semantic features, increasing representational diversity. It also reduces the complexity of the hypothesis space, which enhances both accuracy and generalization in complexity assessment. We propose the D2S (Describe-to-Score) framework, which generates image captions with a pre-trained vision-language model. We propose the feature alignment and entropy distribution alignment mechanisms, D2S guides semantic information to inform complexity assessment while bridging the gap between vision and text modalities. D2S utilizes multi-modal information during training but requires only the vision branch during inference, thereby avoiding multi-modal computational overhead and enabling efficient assessment. Experimental results demonstrate that D2S outperforms existing methods on the IC9600 dataset and maintains competitiveness on no-reference image quality assessment (NR-IQA) benchmark, validating the effectiveness and efficiency of multi-modal fusion in complexity-related tasks. Code is available at: https://github.com/xauat-liushipeng/D2S
- Abstract(参考訳): 画像複雑性(IC)の正確な評価はコンピュータビジョンにとって重要であるが、既存のほとんどの手法は視覚的特徴のみに依存し、高いレベルの意味情報を無視し、精度と一般化を制限している。
ICモデリングのための視覚テキスト融合を導入する。
このアプローチは視覚とテキストのセマンティックな特徴を統合し、表現の多様性を増大させる。
また、仮説空間の複雑さを減らし、複雑性評価の精度と一般化を両立させる。
本稿では,事前学習された視覚言語モデルを用いて画像キャプションを生成するD2S(Describe-to-Score)フレームワークを提案する。
本稿では,特徴アライメントとエントロピー分布アライメント機構D2Sを提案する。
D2Sは、トレーニング中にマルチモーダル情報を利用するが、推論中にのみ視覚枝を必要とするため、マルチモーダル計算のオーバーヘッドを回避し、効率的な評価を可能にする。
実験結果から,D2SはIC9600データセットの既存手法よりも優れ,NR-IQAベンチマークの競合性を維持し,複雑性関連タスクにおけるマルチモーダル融合の有効性と効率を検証した。
コードは、https://github.com/xauat-liushipeng/D2Sで入手できる。
関連論文リスト
- Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。
クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。
一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文 参考訳(メタデータ) (2025-06-10T04:04:58Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。