論文の概要: Exploring Image Representation with Decoupled Classical Visual Descriptors
- arxiv url: http://arxiv.org/abs/2510.14536v1
- Date: Thu, 16 Oct 2025 10:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.816924
- Title: Exploring Image Representation with Decoupled Classical Visual Descriptors
- Title(参考訳): 分離された古典的視覚ディスクリプタによる画像表現の探索
- Authors: Chenyuan Qu, Hao Chen, Jianbo Jiao,
- Abstract要約: VisualSplitは、イメージを分離した古典的な記述子に明示的に分解するフレームワークである。
本手法は,様々な視覚的タスクにおいて,効果的な属性制御を本質的に促進する。
- 参考スコア(独自算出の注目度): 22.297026395259362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Exploring and understanding efficient image representations is a long-standing challenge in computer vision. While deep learning has achieved remarkable progress across image understanding tasks, its internal representations are often opaque, making it difficult to interpret how visual information is processed. In contrast, classical visual descriptors (e.g. edge, colour, and intensity distribution) have long been fundamental to image analysis and remain intuitively understandable to humans. Motivated by this gap, we ask a central question: Can modern learning benefit from these classical cues? In this paper, we answer it with VisualSplit, a framework that explicitly decomposes images into decoupled classical descriptors, treating each as an independent but complementary component of visual knowledge. Through a reconstruction-driven pre-training scheme, VisualSplit learns to capture the essence of each visual descriptor while preserving their interpretability. By explicitly decomposing visual attributes, our method inherently facilitates effective attribute control in various advanced visual tasks, including image generation and editing, extending beyond conventional classification and segmentation, suggesting the effectiveness of this new learning approach for visual understanding. Project page: https://chenyuanqu.com/VisualSplit/.
- Abstract(参考訳): 効率的な画像表現の探索と理解は、コンピュータビジョンにおける長年の課題である。
深層学習は画像理解タスク全体で顕著な進歩を遂げているが、内部表現はしばしば不透明であり、視覚情報がどのように処理されるかを理解することは困難である。
対照的に、古典的な視覚記述子(例えば、エッジ、色、強度分布)は画像解析の基本であり、人間にとって直感的に理解できるままである。
このギャップによって、私たちは中心的な質問をする: 現代の学習はこれらの古典的な方法の恩恵を受けられるか?
本稿では,イメージを分離した古典的記述子に明示的に分解するフレームワークであるVisualSplitに答える。
再構成駆動の事前トレーニングスキームを通じて、VisualSplitは、解釈可能性を維持しながら、各ビジュアルディスクリプタの本質をキャプチャすることを学ぶ。
視覚的属性を明示的に分解することにより、画像生成や編集など様々な高度な視覚タスクにおいて、従来の分類やセグメンテーションを超えて効果的な属性制御を容易にし、視覚的理解のための新たな学習手法の有効性を示唆する。
プロジェクトページ: https://chenyuanqu.com/VisualSplit/.com
関連論文リスト
- MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Interpretable Visual Understanding with Cognitive Attention Network [20.991018495051623]
視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。
まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。
第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
論文 参考訳(メタデータ) (2021-08-06T02:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。