Fugu-MT 論文翻訳(概要): Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise

論文の概要: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise

arxiv url: http://arxiv.org/abs/2501.15890v3
Date: Thu, 20 Mar 2025 12:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:51.949767
Title: Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
Title（参考訳）: 複雑さの複雑さ: 構造、色、サプライズによる視覚的複雑さの理解
Authors: Karahan Sarıtaş, Peter Dayan, Tingke Shen, Surabhi S Nath,
Abstract要約: 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。複雑性を正確にモデル化することは、これまで考えられていたほど単純ではなく、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要がある。我々のモデルは、解釈可能性を維持しながら予測性能を改善し、視覚的複雑さの認識と評価についてより深い洞察を提供する。
参考スコア（独自算出の注目度）: 6.324765782436764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding how humans perceive visual complexity is a key area of study in visual cognition. Previous approaches to modeling visual complexity assessments have often resulted in intricate, difficult-to-interpret algorithms that employ numerous features or sophisticated deep learning architectures. While these complex models achieve high performance on specific datasets, they often sacrifice interpretability, making it challenging to understand the factors driving human perception of complexity. Recently (Shen, et al. 2024) proposed an interpretable segmentation-based model that accurately predicted complexity across various datasets, supporting the idea that complexity can be explained simply. In this work, we investigate the failure of their model to capture structural, color and surprisal contributions to complexity. To this end, we propose Multi-Scale Sobel Gradient (MSG) which measures spatial intensity variations, Multi-Scale Unique Color (MUC) which quantifies colorfulness across multiple scales, and surprise scores generated using a Large Language Model. We test our features on existing benchmarks and a novel dataset (Surprising Visual Genome) containing surprising images from Visual Genome. Our experiments demonstrate that modeling complexity accurately is not as simple as previously thought, requiring additional perceptual and semantic factors to address dataset biases. Our model improves predictive performance while maintaining interpretability, offering deeper insights into how visual complexity is perceived and assessed. Our code, analysis and data are available at https://github.com/Complexity-Project/Complexity-in-Complexity.
Abstract（参考訳）: 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。視覚的複雑性評価をモデル化する以前のアプローチは、多くの特徴や高度なディープラーニングアーキテクチャを用いる複雑な、解釈が難しいアルゴリズムをしばしば生み出している。これらの複雑なモデルは特定のデータセット上で高いパフォーマンスを達成するが、解釈可能性の犠牲になることが多いため、複雑さに対する人間の認識を促進する要因を理解することは困難である。最近(Shen, et al 2024)は、様々なデータセットにわたる複雑さを正確に予測する解釈可能なセグメンテーションベースのモデルを提案し、複雑さを単純に説明できるという考えを支持した。本研究では,それらのモデルが複雑化に対する構造的,色的,前提的貢献を捉えていないことを考察する。この目的のために,空間強度の変動を測定するマルチスケール・ソベル勾配(MSG),複数スケールにわたる色度を定量化するマルチスケール・ユニキカラー(MUC),および大規模言語モデルを用いて生成したサプライズスコアを提案する。既存のベンチマークと、Visual Genomeの驚くべき画像を含む新しいデータセット(Surprising Visual Genome)で機能をテストする。我々の実験は、モデリングの複雑さが以前考えられていたほど単純ではないことを実証し、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要があることを示した。我々のモデルは、解釈可能性を維持しながら予測性能を改善し、視覚的複雑さの認識と評価についてより深い洞察を提供する。私たちのコード、分析、データはhttps://github.com/complexity-Project/complexity-in-complexityで公開されています。

関連論文リスト

Does Data Scaling Lead to Visual Compositional Generalization? [21.242714408660508]
構成一般化は単なるデータスケールではなく,データの多様性によってもたらされる。この構造が効率の鍵であることを証明し、ほとんど観測されていない組み合わせから完全な一般化を可能にする。
論文参考訳（メタデータ） (2025-07-09T17:59:03Z)
Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文参考訳（メタデータ） (2025-01-21T08:28:10Z)
Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文参考訳（メタデータ） (2024-08-07T20:26:35Z)
Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文参考訳（メタデータ） (2024-07-08T16:21:53Z)
Meta Operator for Complex Query Answering on Knowledge Graphs [58.340159346749964]
我々は、異なる複雑なクエリタイプではなく、異なる論理演算子型が一般化性を向上させる鍵であると主張する。本稿では,メタ演算子を限られたデータで学習し,様々な複雑なクエリの演算子のインスタンスに適応するメタ学習アルゴリズムを提案する。実験結果から,メタオペレータの学習は,従来のCQAモデルやメタCQAモデルよりも効果的であることが示唆された。
論文参考訳（メタデータ） (2024-03-15T08:54:25Z)
Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models [6.324765782436764]
画像のセグメントベース表現を用いた複雑性のモデル化を提案する。この2つの特徴を6つの多様な画像集合にまたがる単純な線形モデルにより,複雑性がよく説明できることがわかった。
論文参考訳（メタデータ） (2024-03-05T17:21:31Z)
Inferring Local Structure from Pairwise Correlations [0.0]
相関関係が局所関係を回復するのに十分な情報を提供することを示す。これは、我々のデータに高次相互作用構造が存在するにもかかわらず、成功することを証明している。
論文参考訳（メタデータ） (2023-05-07T22:38:29Z)
On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文参考訳（メタデータ） (2022-11-20T17:21:37Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
Structural Landmarking and Interaction Modelling: on Resolution Dilemmas in Graph Classification [50.83222170524406]
解法ジレンマの統一概念に基づくグラフ分類における本質的難易度の研究」構造ランドマークと相互作用モデリングのためのインダクティブニューラルネットワークモデルSLIM'を提案する。
論文参考訳（メタデータ） (2020-06-29T01:01:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。