論文の概要: Hierarchical Fusion and Joint Aggregation: A Multi-Level Feature Representation Method for AIGC Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2507.17182v1
- Date: Wed, 23 Jul 2025 04:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.851106
- Title: Hierarchical Fusion and Joint Aggregation: A Multi-Level Feature Representation Method for AIGC Image Quality Assessment
- Title(参考訳): 階層的融合と関節集合:AIGC画像品質評価のための多層特徴表現法
- Authors: Linghe Meng, Jiarun Song,
- Abstract要約: AIGCの品質評価は、低レベルの視覚知覚から高レベルの意味理解まで多次元的な課題に直面している。
この制限に対処するため、多段階の視覚表現パラダイムとして、多段階の特徴抽出、階層的融合、共同集約の3段階が提案されている。
ベンチマーク実験では、両タスクにおいて優れた性能を示し、提案したマルチレベル視覚評価パラダイムの有効性を検証した。
- 参考スコア(独自算出の注目度): 0.9821874476902972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality assessment of AI-generated content (AIGC) faces multi-dimensional challenges, that span from low-level visual perception to high-level semantic understanding. Existing methods generally rely on single-level visual features, limiting their ability to capture complex distortions in AIGC images. To address this limitation, a multi-level visual representation paradigm is proposed with three stages, namely multi-level feature extraction, hierarchical fusion, and joint aggregation. Based on this paradigm, two networks are developed. Specifically, the Multi-Level Global-Local Fusion Network (MGLF-Net) is designed for the perceptual quality assessment, extracting complementary local and global features via dual CNN and Transformer visual backbones. The Multi-Level Prompt-Embedded Fusion Network (MPEF-Net) targets Text-to-Image correspondence by embedding prompt semantics into the visual feature fusion process at each feature level. The fused multi-level features are then aggregated for final evaluation. Experiments on benchmarks demonstrate outstanding performance on both tasks, validating the effectiveness of the proposed multi-level visual assessment paradigm.
- Abstract(参考訳): AIGCの品質評価は、低レベルの視覚知覚から高レベルの意味理解まで多次元的な課題に直面している。
既存の手法は一般的に単一のレベルの視覚的特徴に依存しており、AIGC画像の複雑な歪みを捉える能力を制限する。
この制限に対処するため、多段階の視覚表現パラダイムとして、多段階の特徴抽出、階層的融合、共同集約の3段階が提案されている。
このパラダイムに基づいて2つのネットワークが開発された。
特に,Multi-Level Global-Local Fusion Network (MGLF-Net) は知覚的品質評価のために設計されており,CNNとTransformerビジュアルバックボーンによる補完的な局所的特徴とグローバルな特徴を抽出する。
Multi-Level Prompt-Embedded Fusion Network (MPEF-Net)は、各特徴レベルでの視覚的特徴融合プロセスにプロンプトセマンティクスを埋め込むことで、テキストと画像の対応を狙う。
融合したマルチレベル機能は最終評価のために集約される。
ベンチマーク実験では、両タスクにおいて優れた性能を示し、提案したマルチレベル視覚評価パラダイムの有効性を検証した。
関連論文リスト
- Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文 参考訳(メタデータ) (2025-08-04T02:41:09Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。