論文の概要: Automating Style Analysis and Visualization With Explainable AI -- Case
Studies on Brand Recognition
- arxiv url: http://arxiv.org/abs/2306.03021v1
- Date: Mon, 5 Jun 2023 16:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:54:30.818916
- Title: Automating Style Analysis and Visualization With Explainable AI -- Case
Studies on Brand Recognition
- Title(参考訳): 説明可能なAIによるスタイル分析と可視化 - ブランド認識のケーススタディ
- Authors: Yu-hsuan Chen, Levent Burak Kara, Jonathan Cagan
- Abstract要約: 本稿では,ブランド関連機能の発見を完全に自動化するAI駆動手法を提案する。
提案手法では,ベクトルグラフィックスの分類と解析を行う2層ブランド識別グラフニューラルネットワーク(GNN)BIGNetを導入する。
最初のケーススタディでは、BIGNetは電話ブランドを分類するだけでなく、複数のスケールでブランド関連の機能をキャプチャする。
- 参考スコア(独自算出の注目度): 0.4297070083645048
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Incorporating style-related objectives into shape design has been centrally
important to maximize product appeal. However, stylistic features such as
aesthetics and semantic attributes are hard to codify even for experts. As
such, algorithmic style capture and reuse have not fully benefited from
automated data-driven methodologies due to the challenging nature of design
describability. This paper proposes an AI-driven method to fully automate the
discovery of brand-related features. Our approach introduces BIGNet, a two-tier
Brand Identification Graph Neural Network (GNN) to classify and analyze scalar
vector graphics (SVG). First, to tackle the scarcity of vectorized product
images, this research proposes two data acquisition workflows: parametric
modeling from small curve-based datasets, and vectorization from large
pixel-based datasets. Secondly, this study constructs a novel hierarchical GNN
architecture to learn from both SVG's curve-level and chunk-level parameters.
In the first case study, BIGNet not only classifies phone brands but also
captures brand-related features across multiple scales, such as the location of
the lens, the height-width ratio, and the screen-frame gap, as confirmed by AI
evaluation. In the second study, this paper showcases the generalizability of
BIGNet learning from a vectorized car image dataset and validates the
consistency and robustness of its predictions given four scenarios. The results
match the difference commonly observed in luxury vs. economy brands in the
automobile market. Finally, this paper also visualizes the activation maps
generated from a convolutional neural network and shows BIGNet's advantage of
being a more human-friendly, explainable, and explicit style-capturing agent.
Code and dataset can be found on Github:
1. Phone case study: github.com/parksandrecfan/bignet-phone 2. Car case
study: github.com/parksandrecfan/bignet-car
- Abstract(参考訳): 形状設計にスタイル関連の目的を組み込むことは, 製品の魅力を最大化するために重要である。
しかし、美学や意味属性のような様式的特徴は、専門家にとっても体系化が難しい。
このように、アルゴリズムスタイルのキャプチャと再利用は、設計記述性の難しい性質のため、自動データ駆動手法の恩恵を受けていない。
本稿では,ブランド関連機能の発見を完全に自動化するAI駆動手法を提案する。
提案手法では,スカラーベクトルグラフィックス(SVG)の分類と解析を行う2層ブランド識別グラフニューラルネットワーク(GNN)であるBIGNetを導入する。
まず、ベクトル化製品画像の不足に対処するため、本研究では、小さな曲線に基づくデータセットからのパラメトリックモデリングと、大きなピクセルベースのデータセットからのベクトル化という2つのデータ取得ワークフローを提案する。
第2に,SVGの曲線レベルおよびチャンクレベルパラメータから学習するための,新しい階層型GNNアーキテクチャを構築する。
最初のケーススタディでは、BIGNetは電話ブランドを分類するだけでなく、レンズの位置、高さ幅比、スクリーンフレームギャップなど、複数のスケールでブランド関連の特徴を捉え、AI評価によって確認された。
本稿では,ベクトル化カーイメージデータセットからのBIGNet学習の一般化可能性を示すとともに,その予測の一貫性と堅牢性を4つのシナリオで検証する。
その結果は、自動車市場における高級車と経済ブランドでよく見られる違いと一致する。
最後に、畳み込みニューラルネットワークから生成された活性化マップを可視化し、BIGNetがより人間フレンドリで説明しやすい明示的なスタイルキャプチャーエージェントであることの利点を示す。
コードとデータセットはgithubにある。 1. phone case study: github.com/parksandrecfan/bignet-phone
2.カーケーススタディ:github.com/parksandrecfan/bignet-car
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - Dual-Attention Model for Aspect-Level Sentiment Classification [0.0]
アスペクトレベルの感情分類のための新しいデュアルアテンションモデル(DAM)を提案する。
提案手法を,SemEval 2014のノートパソコンとレストランの3つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-03-14T08:04:38Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Online Deep Learning based on Auto-Encoder [4.128388784932455]
オートエンコーダ(ODLAE)に基づく2段階オンライン深層学習を提案する。
復元損失を考慮した自動エンコーダを用いて,インスタンスの階層的潜在表現を抽出する。
我々は,各隠れ層の分類結果を融合して得られる出力レベル融合戦略と,隠れ層の出力を融合させる自己保持機構を利用した特徴レベル融合戦略の2つの融合戦略を考案した。
論文 参考訳(メタデータ) (2022-01-19T02:14:57Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z) - Which way? Direction-Aware Attributed Graph Embedding [2.429993132301275]
グラフ埋め込みアルゴリズムは連続ベクトル空間内のグラフを効率的に表現するために用いられる。
しばしば見落とされがちな側面の1つは、グラフが向き付けられたかどうかである。
本研究は,DIAGRAMという,テキストに富んだ方向認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T13:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。