論文の概要: DReX: Pure Vision Fusion of Self-Supervised and Convolutional Representations for Image Complexity Prediction
- arxiv url: http://arxiv.org/abs/2511.16991v1
- Date: Fri, 21 Nov 2025 06:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.909323
- Title: DReX: Pure Vision Fusion of Self-Supervised and Convolutional Representations for Image Complexity Prediction
- Title(参考訳): DReX:画像複雑度予測のための自己スーパービジョンと畳み込み表現の純粋ビジョン融合
- Authors: Jonathan Skaza, Parsa Madinei, Ziqi Wen, Miguel Eckstein,
- Abstract要約: 画像の複雑さを予測するために,自己監督的・畳み込み的表現を融合した視覚のみのモデルを提案する。
DReXはIC9600ベンチマークで最先端のパフォーマンスを達成する。
以上の結果から,視覚的特徴だけでは,人手による複雑度予測に十分である可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.771934382051849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual complexity prediction is a fundamental problem in computer vision with applications in image compression, retrieval, and classification. Understanding what makes humans perceive an image as complex is also a long-standing question in cognitive science. Recent approaches have leveraged multimodal models that combine visual and linguistic representations, but it remains unclear whether language information is necessary for this task. We propose DReX (DINO-ResNet Fusion), a vision-only model that fuses self-supervised and convolutional representations through a learnable attention mechanism to predict image complexity. Our architecture integrates multi-scale hierarchical features from ResNet-50 with semantically rich representations from DINOv3 ViT-S/16, enabling the model to capture both low-level texture patterns and high-level semantic structure. DReX achieves state-of-the-art performance on the IC9600 benchmark (Pearson r = 0.9581), surpassing previous methods--including those trained on multimodal image-text data--while using approximately 21.5x fewer learnable parameters. Furthermore, DReX generalizes robustly across multiple datasets and metrics, achieving superior results on Pearson and Spearman correlation, Root Mean Square Error (RMSE), and Mean Absolute Error (MAE). Ablation and attention analyses confirm that DReX leverages complementary cues from both backbones, with the DINOv3 [CLS] token enhancing sensitivity to visual complexity. Our findings suggest that visual features alone can be sufficient for human-aligned complexity prediction and that, when properly fused, self-supervised transformers and supervised deep convolutional neural networks offer complementary and synergistic benefits for this task.
- Abstract(参考訳): 視覚複雑性予測は、画像圧縮、検索、分類の分野でのコンピュータビジョンにおける基本的な問題である。
人間のイメージを複雑だと認識させるものを理解することは、認知科学における長年の疑問でもある。
近年のアプローチでは,視覚的表現と言語的表現を組み合わせたマルチモーダルモデルが活用されているが,この課題に言語情報が必要であるかどうかは不明である。
本稿では,視覚のみのモデルであるDReX(DINO-ResNet Fusion)を提案する。
我々のアーキテクチャは、ResNet-50のマルチスケール階層機能とDINOv3 ViT-S/16のセマンティックリッチ表現を統合し、低レベルのテクスチャパターンと高レベルのセマンティック構造の両方をキャプチャできる。
DReXはIC9600ベンチマーク(Pearson r = 0.9581)で最先端のパフォーマンスを達成し、学習可能なパラメータを約21.5倍少なくして、マルチモーダルな画像テキストデータで訓練されたものを含む従来の手法を上回ります。
さらに、DReXは複数のデータセットやメトリクスにわたって堅牢に一般化し、PearsonとSpearmanの相関、Root Mean Square Error(RMSE)、Mean Absolute Error(MAE)において優れた結果を得る。
アブレーションと注意分析により、DReXは両背骨からの相補的手がかりを利用しており、DINOv3[CLS]トークンは視覚的複雑さに対する感受性を高める。
以上の結果から,視覚的特徴だけでは人間の整合性予測に十分であり,自己教師型トランスフォーマーと教師型深層畳み込みニューラルネットワークが相補的,相補的利益をもたらすことが示唆された。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Describe-to-Score: Text-Guided Efficient Image Complexity Assessment [5.744778242421451]
コンピュータビジョンにおいて、画像複雑性(IC)の正確な評価が重要である。
ICモデリングのための視覚テキスト融合を導入する。
本稿では,事前学習された視覚言語モデルを用いて画像キャプションを生成するD2S(Describe-to-Score)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-20T10:17:25Z) - Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction [0.0]
本稿では,CNNの機能抽出能力と変換器のリレーショナルモデリング能力とを相乗化するハイブリッドディープラーニングアーキテクチャであるScale-Interaction Transformer (SIT)を紹介する。
我々は広く使われているSCUT-FBP5500ベンチマークデータセットについて広範な実験を行い、提案したSITモデルは新たな最先端技術を確立する。
以上の結果から,マルチスケールの視覚的手がかり間の相互作用を明示的にモデル化することは,高性能なFBPにとって重要であることが示唆された。
論文 参考訳(メタデータ) (2025-09-05T13:16:55Z) - F-INR: Functional Tensor Decomposition for Implicit Neural Representations [7.183424522250937]
Implicit Representation (INR) は、ニューラルネットワークを用いて離散信号を連続的に微分可能な関数に符号化する強力なツールとして登場した。
機能的分解によりINR学習を再構築し,高次元タスクを軽量な軸特化サブネットワークに分割するフレームワークF-INRを提案する。
論文 参考訳(メタデータ) (2025-03-27T13:51:31Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。