論文の概要: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
- arxiv url: http://arxiv.org/abs/2501.15890v3
- Date: Thu, 20 Mar 2025 12:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:30.704572
- Title: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
- Title(参考訳): 複雑さの複雑さ: 構造、色、サプライズによる視覚的複雑さの理解
- Authors: Karahan Sarıtaş, Peter Dayan, Tingke Shen, Surabhi S Nath,
- Abstract要約: 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。
複雑性を正確にモデル化することは、これまで考えられていたほど単純ではなく、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要がある。
我々のモデルは、解釈可能性を維持しながら予測性能を改善し、視覚的複雑さの認識と評価についてより深い洞察を提供する。
- 参考スコア(独自算出の注目度): 6.324765782436764
- License:
- Abstract: Understanding how humans perceive visual complexity is a key area of study in visual cognition. Previous approaches to modeling visual complexity assessments have often resulted in intricate, difficult-to-interpret algorithms that employ numerous features or sophisticated deep learning architectures. While these complex models achieve high performance on specific datasets, they often sacrifice interpretability, making it challenging to understand the factors driving human perception of complexity. Recently (Shen, et al. 2024) proposed an interpretable segmentation-based model that accurately predicted complexity across various datasets, supporting the idea that complexity can be explained simply. In this work, we investigate the failure of their model to capture structural, color and surprisal contributions to complexity. To this end, we propose Multi-Scale Sobel Gradient (MSG) which measures spatial intensity variations, Multi-Scale Unique Color (MUC) which quantifies colorfulness across multiple scales, and surprise scores generated using a Large Language Model. We test our features on existing benchmarks and a novel dataset (Surprising Visual Genome) containing surprising images from Visual Genome. Our experiments demonstrate that modeling complexity accurately is not as simple as previously thought, requiring additional perceptual and semantic factors to address dataset biases. Our model improves predictive performance while maintaining interpretability, offering deeper insights into how visual complexity is perceived and assessed. Our code, analysis and data are available at https://github.com/Complexity-Project/Complexity-in-Complexity.
- Abstract(参考訳): 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。
視覚的複雑性評価をモデル化する以前のアプローチは、多くの特徴や高度なディープラーニングアーキテクチャを用いる複雑な、解釈が難しいアルゴリズムをしばしば生み出している。
これらの複雑なモデルは特定のデータセット上で高いパフォーマンスを達成するが、解釈可能性の犠牲になることが多いため、複雑さに対する人間の認識を促進する要因を理解することは困難である。
最近(Shen, et al 2024)は、様々なデータセットにわたる複雑さを正確に予測する解釈可能なセグメンテーションベースのモデルを提案し、複雑さを単純に説明できるという考えを支持した。
本研究では,それらのモデルが複雑化に対する構造的,色的,前提的貢献を捉えていないことを考察する。
この目的のために,空間強度の変動を測定するマルチスケール・ソベル勾配(MSG),複数スケールにわたる色度を定量化するマルチスケール・ユニキカラー(MUC),および大規模言語モデルを用いて生成したサプライズスコアを提案する。
既存のベンチマークと、Visual Genomeの驚くべき画像を含む新しいデータセット(Surprising Visual Genome)で機能をテストする。
我々の実験は、モデリングの複雑さが以前考えられていたほど単純ではないことを実証し、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要があることを示した。
我々のモデルは、解釈可能性を維持しながら予測性能を改善し、視覚的複雑さの認識と評価についてより深い洞察を提供する。
私たちのコード、分析、データはhttps://github.com/complexity-Project/complexity-in-complexityで公開されています。
関連論文リスト
- Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。
我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文 参考訳(メタデータ) (2024-08-07T20:26:35Z) - Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文 参考訳(メタデータ) (2024-07-08T16:21:53Z) - Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models [6.324765782436764]
画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
この2つの特徴を6つの多様な画像集合にまたがる単純な線形モデルにより,複雑性がよく説明できることがわかった。
論文 参考訳(メタデータ) (2024-03-05T17:21:31Z) - On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。
問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文 参考訳(メタデータ) (2022-11-20T17:21:37Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Complexity and Aesthetics in Generative and Evolutionary Art [5.837881923712394]
生成的および進化的芸術とデザインに適用される複雑さの概念について検討する。
複雑度と個人的審美判断の相関について検討する。
生成的・進化的技術における直接測度の価値について論じる。
論文 参考訳(メタデータ) (2022-01-05T06:19:55Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。