論文の概要: A Data-Centric Approach: Dimensions of Visual Complexity and How to find Them
- arxiv url: http://arxiv.org/abs/2501.15890v1
- Date: Mon, 27 Jan 2025 09:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.883085
- Title: A Data-Centric Approach: Dimensions of Visual Complexity and How to find Them
- Title(参考訳): データ中心アプローチ:視覚的複雑さの次元とテーマの発見方法
- Authors: Karahan Sarıtaş, Tingke Shen, Surabhi S Nath, Peter Dayan,
- Abstract要約: 本稿では,視覚的複雑性の構造的・意味的側面を捉える際の限界を克服する,実用的で効果的な機能を提案する。
具体的には,マルチスケールソベル勾配(Multiscale Sobel Gradient,MSG)や,量子化されたRGB値をインデックス化して画像のカラフルさを定量化するMultiscale Unique Colors(MUC)など,複雑性の構造的側面のためのマルチスケール機能を開発する。
また、視覚的複雑性のセマンティックな側面を探索し、画像のサプライズ要素に基づくサプライズスコアを得るために、Visual Genomeに基づく新しいデータセットを導入する。
- 参考スコア(独自算出の注目度): 6.324765782436764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how humans perceive visual complexity is a key area of study in visual cognition. Previous approaches to modeling visual complexity have often resulted in intricate, difficult-to-interpret solutions that employ numerous features or sophisticated deep learning architectures. While these complex models achieve high performance on specific datasets, they often sacrifice interpretability, making it challenging to understand the factors driving human perception of complexity. A recent model based on image segmentations showed promise in addressing this challenge; however, it presented limitations in capturing structural and semantic aspects of visual complexity. In this paper, we propose viable and effective features to overcome these shortcomings. Specifically, we develop multiscale features for the structural aspect of complexity, including the Multiscale Sobel Gradient (MSG), which captures spatial intensity variations across scales, and Multiscale Unique Colors (MUC), which quantifies image colorfulness by indexing quantized RGB values. We also introduce a new dataset SVG based on Visual Genome to explore the semantic aspect of visual complexity, obtaining surprise scores based on the element of surprise in images, which we demonstrate significantly contributes to perceived complexity. Overall, we suggest that the nature of the data is fundamental to understanding and modeling visual complexity, highlighting the importance of both structural and semantic dimensions in providing a comprehensive, interpretable assessment. The code for our analysis, experimental setup, and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): 人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。
視覚的複雑性をモデル化する以前のアプローチは、多くの機能や高度なディープラーニングアーキテクチャを利用する複雑な、解釈が難しいソリューションをもたらすことが多い。
これらの複雑なモデルは特定のデータセット上で高いパフォーマンスを達成するが、解釈可能性の犠牲になることが多いため、複雑さに対する人間の認識を促進する要因を理解することは困難である。
画像分割に基づく最近のモデルでは、この課題に対処する上で有望であることが示されているが、視覚的複雑さの構造的・意味的な側面を捉える上での限界が提示された。
本稿では,これらの欠点を克服するための実用的で効果的な機能を提案する。
具体的には,マルチスケールソベル勾配(Multiscale Sobel Gradient,MSG)や,量子化されたRGB値をインデックス化して画像のカラフルさを定量化するMultiscale Unique Colors(MUC)など,複雑性の構造的側面のためのマルチスケール機能を開発する。
また、視覚的複雑性のセマンティックな側面を探索し、画像のサプライズ要素に基づくサプライズスコアを得るために、Visual Genomeに基づく新しいデータセットSVGを導入し、複雑さの認識に大きく貢献することを示した。
全体として、データの性質は視覚的複雑さを理解し、モデル化するための基本であり、包括的で解釈可能な評価を提供する上で、構造的次元と意味的次元の両方の重要性を強調している。
私たちの分析、実験的なセットアップ、データセットのコードは、受理時に公開されます。
関連論文リスト
- Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - Multi-scale structural complexity as a quantitative measure of visual complexity [1.3499500088995464]
マルチスケール構造複雑性尺度(MSSC)は,物体の構造的複雑性を,その階層構造における異なるスケール間の相違点の量として定義する手法である。
我々は、MSSCが他の計算複雑性尺度と同等の主観的複雑性と相関し、より直感的であり、画像のカテゴリ間で一貫性があり、計算が容易であることを示した。
論文 参考訳(メタデータ) (2024-08-07T20:26:35Z) - Understanding Visual Feature Reliance through the Lens of Complexity [14.282243225622093]
我々は$mathscrV$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。
我々は、標準画像ネット学習視覚モデルから抽出した1万個の特徴の複雑さを、垂直層内の方向として表現する。
論文 参考訳(メタデータ) (2024-07-08T16:21:53Z) - Meta Operator for Complex Query Answering on Knowledge Graphs [58.340159346749964]
我々は、異なる複雑なクエリタイプではなく、異なる論理演算子型が一般化性を向上させる鍵であると主張する。
本稿では,メタ演算子を限られたデータで学習し,様々な複雑なクエリの演算子のインスタンスに適応するメタ学習アルゴリズムを提案する。
実験結果から,メタオペレータの学習は,従来のCQAモデルやメタCQAモデルよりも効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T08:54:25Z) - Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models [6.324765782436764]
画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
この2つの特徴を6つの多様な画像集合にまたがる単純な線形モデルにより,複雑性がよく説明できることがわかった。
論文 参考訳(メタデータ) (2024-03-05T17:21:31Z) - Inferring Local Structure from Pairwise Correlations [0.0]
相関関係が局所関係を回復するのに十分な情報を提供することを示す。
これは、我々のデータに高次相互作用構造が存在するにもかかわらず、成功することを証明している。
論文 参考訳(メタデータ) (2023-05-07T22:38:29Z) - On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。
問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文 参考訳(メタデータ) (2022-11-20T17:21:37Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Structural Landmarking and Interaction Modelling: on Resolution Dilemmas
in Graph Classification [50.83222170524406]
解法ジレンマの統一概念に基づくグラフ分類における本質的難易度の研究」
構造ランドマークと相互作用モデリングのためのインダクティブニューラルネットワークモデルSLIM'を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。