論文の概要: A Data-Centric Approach: Dimensions of Visual Complexity and How to find Them
- arxiv url: http://arxiv.org/abs/2501.15890v1
- Date: Mon, 27 Jan 2025 09:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:04.438854
- Title: A Data-Centric Approach: Dimensions of Visual Complexity and How to find Them
- Title(参考訳): データ中心アプローチ:視覚的複雑さの次元とテーマの発見方法
- Authors: Karahan Sarıtaş, Tingke Shen, Surabhi S Nath, Peter Dayan,
- Abstract要約: 本稿では,視覚的複雑性の構造的・意味的側面を捉える際の限界を克服する,実用的で効果的な機能を提案する。
具体的には,マルチスケールソベル勾配(Multiscale Sobel Gradient,MSG)や,量子化されたRGB値をインデックス化して画像のカラフルさを定量化するMultiscale Unique Colors(MUC)など,複雑性の構造的側面のためのマルチスケール機能を開発する。
また、視覚的複雑性のセマンティックな側面を探索し、画像のサプライズ要素に基づくサプライズスコアを得るために、Visual Genomeに基づく新しいデータセットを導入する。
- 参考スコア(独自算出の注目度): 6.324765782436764
- License:
- Abstract: Understanding how humans perceive visual complexity is a key area of study in visual cognition. Previous approaches to modeling visual complexity have often resulted in intricate, difficult-to-interpret solutions that employ numerous features or sophisticated deep learning architectures. While these complex models achieve high performance on specific datasets, they often sacrifice interpretability, making it challenging to understand the factors driving human perception of complexity. A recent model based on image segmentations showed promise in addressing this challenge; however, it presented limitations in capturing structural and semantic aspects of visual complexity. In this paper, we propose viable and effective features to overcome these shortcomings. Specifically, we develop multiscale features for the structural aspect of complexity, including the Multiscale Sobel Gradient (MSG), which captures spatial intensity variations across scales, and Multiscale Unique Colors (MUC), which quantifies image colorfulness by indexing quantized RGB values. We also introduce a new dataset SVG based on Visual Genome to explore the semantic aspect of visual complexity, obtaining surprise scores based on the element of surprise in images, which we demonstrate significantly contributes to perceived complexity. Overall, we suggest that the nature of the data is fundamental to understanding and modeling visual complexity, highlighting the importance of both structural and semantic dimensions in providing a comprehensive, interpretable assessment. The code for our analysis, experimental setup, and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。
視覚的複雑性をモデル化する以前のアプローチは、多くの機能や高度なディープラーニングアーキテクチャを利用する複雑な、解釈が難しいソリューションをもたらすことが多い。
これらの複雑なモデルは特定のデータセット上で高いパフォーマンスを達成するが、解釈可能性の犠牲になることが多いため、複雑さに対する人間の認識を促進する要因を理解することは困難である。
画像分割に基づく最近のモデルでは、この課題に対処する上で有望であることが示されているが、視覚的複雑さの構造的・意味的な側面を捉える上での限界が提示された。
本稿では,これらの欠点を克服するための実用的で効果的な機能を提案する。
具体的には,マルチスケールソベル勾配(Multiscale Sobel Gradient,MSG)や,量子化されたRGB値をインデックス化して画像のカラフルさを定量化するMultiscale Unique Colors(MUC)など,複雑性の構造的側面のためのマルチスケール機能を開発する。
また、視覚的複雑性のセマンティックな側面を探索し、画像のサプライズ要素に基づくサプライズスコアを得るために、Visual Genomeに基づく新しいデータセットSVGを導入し、複雑さの認識に大きく貢献することを示した。
全体として、データの性質は視覚的複雑さを理解し、モデル化するための基本であり、包括的で解釈可能な評価を提供する上で、構造的次元と意味的次元の両方の重要性を強調している。
私たちの分析、実験的なセットアップ、データセットのコードは、受理時に公開されます。
関連論文リスト
- Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。
我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文 参考訳(メタデータ) (2024-08-07T20:26:35Z) - Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文 参考訳(メタデータ) (2024-07-08T16:21:53Z) - Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models [6.324765782436764]
画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
この2つの特徴を6つの多様な画像集合にまたがる単純な線形モデルにより,複雑性がよく説明できることがわかった。
論文 参考訳(メタデータ) (2024-03-05T17:21:31Z) - On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。
問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文 参考訳(メタデータ) (2022-11-20T17:21:37Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Complexity and Aesthetics in Generative and Evolutionary Art [5.837881923712394]
生成的および進化的芸術とデザインに適用される複雑さの概念について検討する。
複雑度と個人的審美判断の相関について検討する。
生成的・進化的技術における直接測度の価値について論じる。
論文 参考訳(メタデータ) (2022-01-05T06:19:55Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。