論文の概要: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
- arxiv url: http://arxiv.org/abs/2501.15890v2
- Date: Wed, 05 Feb 2025 19:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 17:44:14.327141
- Title: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
- Title(参考訳): 複雑さの複雑さ: 構造、色、サプライズによる視覚的複雑さの理解
- Authors: Karahan Sarıtaş, Peter Dayan, Tingke Shen, Surabhi S Nath,
- Abstract要約: 本稿では,解釈可能なセグメンテーションに基づくモデルが複雑化に対する構造的,色的,前提的貢献を捉えるのに失敗することについて検討する。
本研究では,空間強度の変動を測定するマルチスケールソベル勾配,複数スケールにわたる色度を定量化するマルチスケール一様色,および大規模言語モデルを用いて生成したサプライズスコアを提案する。
我々の実験は、モデリングの複雑さが以前考えられていたほど単純ではないことを実証し、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要があることを示した。
- 参考スコア(独自算出の注目度): 6.324765782436764
- License:
- Abstract: Understanding human perception of visual complexity is crucial in visual cognition. Recently (Shen, et al. 2024) proposed an interpretable segmentation-based model that accurately predicted complexity across various datasets, supporting the idea that complexity can be explained simply. In this work, we investigate the failure of their model to capture structural, color and surprisal contributions to complexity. To this end, we propose Multi-Scale Sobel Gradient which measures spatial intensity variations, Multi-Scale Unique Color which quantifies colorfulness across multiple scales, and surprise scores generated using a Large Language Model. We test our features on existing benchmarks and a novel dataset containing surprising images from Visual Genome. Our experiments demonstrate that modeling complexity accurately is not as simple as previously thought, requiring additional perceptual and semantic factors to address dataset biases. Thus our results offer deeper insights into how humans assess visual complexity.
- Abstract(参考訳): 視覚的複雑さに対する人間の認識を理解することは、視覚的認知において不可欠である。
最近(Shen, et al 2024)は、様々なデータセットにわたる複雑さを正確に予測する解釈可能なセグメンテーションベースのモデルを提案し、複雑さを単純に説明できるという考えを支持した。
本研究では,それらのモデルが複雑化に対する構造的,色的,前提的貢献を捉えていないことを考察する。
そこで本研究では,空間強度の変動を測定するマルチスケールソベル勾配,複数スケールにわたる色度を定量化するマルチスケールユニークカラー,および大規模言語モデルを用いて生成したサプライズスコアを提案する。
既存のベンチマークと、Visual Genomeの驚くべきイメージを含む新しいデータセットで、これらの機能をテストする。
我々の実験は、モデリングの複雑さが以前考えられていたほど単純ではないことを実証し、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要があることを示した。
このように、私たちの結果は、人間の視覚的複雑さの評価方法に関する深い洞察を与えます。
関連論文リスト
- Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。
我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文 参考訳(メタデータ) (2024-08-07T20:26:35Z) - Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文 参考訳(メタデータ) (2024-07-08T16:21:53Z) - Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models [6.324765782436764]
画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
この2つの特徴を6つの多様な画像集合にまたがる単純な線形モデルにより,複雑性がよく説明できることがわかった。
論文 参考訳(メタデータ) (2024-03-05T17:21:31Z) - On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。
問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文 参考訳(メタデータ) (2022-11-20T17:21:37Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Complexity and Aesthetics in Generative and Evolutionary Art [5.837881923712394]
生成的および進化的芸術とデザインに適用される複雑さの概念について検討する。
複雑度と個人的審美判断の相関について検討する。
生成的・進化的技術における直接測度の価値について論じる。
論文 参考訳(メタデータ) (2022-01-05T06:19:55Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。