論文の概要: CoCoG: Controllable Visual Stimuli Generation based on Human Concept Representations
- arxiv url: http://arxiv.org/abs/2404.16482v1
- Date: Thu, 25 Apr 2024 10:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:09:25.157800
- Title: CoCoG: Controllable Visual Stimuli Generation based on Human Concept Representations
- Title(参考訳): CoCoG:人間の概念表現に基づく制御可能な視覚刺激生成
- Authors: Chen Wei, Jiachen Zou, Dietmar Heinke, Quanying Liu,
- Abstract要約: 本稿では,Concept based Controllable Generation (CoCoG) フレームワークを提案する。
CoCoGは、解釈可能な概念を抽出するためのシンプルで効率的なAIエージェントである2つのコンポーネントで構成されている。
人間の行動予測精度と制御可能な生成能力の2つの側面からCoCoGの性能を定量化する。
- 参考スコア(独自算出の注目度): 6.097452771678942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central question for cognitive science is to understand how humans process visual objects, i.e, to uncover human low-dimensional concept representation space from high-dimensional visual stimuli. Generating visual stimuli with controlling concepts is the key. However, there are currently no generative models in AI to solve this problem. Here, we present the Concept based Controllable Generation (CoCoG) framework. CoCoG consists of two components, a simple yet efficient AI agent for extracting interpretable concept and predicting human decision-making in visual similarity judgment tasks, and a conditional generation model for generating visual stimuli given the concepts. We quantify the performance of CoCoG from two aspects, the human behavior prediction accuracy and the controllable generation ability. The experiments with CoCoG indicate that 1) the reliable concept embeddings in CoCoG allows to predict human behavior with 64.07\% accuracy in the THINGS-similarity dataset; 2) CoCoG can generate diverse objects through the control of concepts; 3) CoCoG can manipulate human similarity judgment behavior by intervening key concepts. CoCoG offers visual objects with controlling concepts to advance our understanding of causality in human cognition. The code of CoCoG is available at \url{https://github.com/ncclab-sustech/CoCoG}.
- Abstract(参考訳): 認知科学における中心的な課題は、人間の視覚的対象、すなわち高次元視覚的刺激から人間の低次元概念表現空間を明らかにする方法を理解することである。
概念制御による視覚刺激の生成が鍵となる。
しかし、この問題を解決するための生成モデルは現在存在しない。
本稿では,Concept based Controllable Generation (CoCoG) フレームワークについて述べる。
CoCoGは、解釈可能な概念を抽出し、視覚的類似性判定タスクにおける人間の意思決定を予測するシンプルなAIエージェントと、その概念を与えられた視覚刺激を生成する条件生成モデルからなる。
人間の行動予測精度と制御可能な生成能力の2つの側面からCoCoGの性能を定量化する。
CoCoGによる実験は、
1)CoCoGに埋め込まれた信頼性の高い概念は,THINGS類似性データセットにおいて,64.07\%の精度で人間の行動を予測することができる。
2)CoCoGは,概念の制御を通じて多様なオブジェクトを生成することができる。
3)CoCoGは人間の類似性判断行動をキーコンセプトを介在させることで操作することができる。
CoCoGは、人間の認知における因果関係の理解を促進するために、概念を制御する視覚オブジェクトを提供する。
CoCoGのコードは \url{https://github.com/ncclab-sustech/CoCoG} で公開されている。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - CoCoG-2: Controllable generation of visual stimuli for understanding human concept representation [6.097452771678942]
本稿では,生成した視覚刺激を類似性判定タスクに統合するCoCoG-2という新しいフレームワークを提案する。
CoCoG-2は、トレーニング不要誘導アルゴリズムを使用して、生成の柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-07-20T17:52:32Z) - Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models [61.203151615743366]
我々は,Concept-Guided視覚言語モデルを用いた2段階フレームワークであるCOGを紹介する。
このフレームワークは、長い尾を持つエンティティのイメージテキスト対を効果的に識別するConcept Integrationモジュールと、説明可能性を提供し、人間の検証を可能にするEvidence Fusionモジュールとを備える。
包括的実験により,COGはベースラインよりも長い尾を持つ画像とテキストのペアを認識する精度が向上するだけでなく,柔軟性や説明性も向上することが示された。
論文 参考訳(メタデータ) (2024-06-16T11:49:00Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - GCI: A (G)raph (C)oncept (I)nterpretation Framework [4.475779734632896]
本稿では,グラフニューラルネットワーク(GNN)から発見された概念とそれに対応する人間の解釈とのアライメントを定量的に測定するために用いられるGCI: a (G)raph (C)oncept (I)nterpretationフレームワークについて述べる。
我々は,GCIの4つの応用を実証する: (i)概念抽出器の定量的評価, (ii)概念抽出器と人間の解釈との整合性の測定, (iii)最終課題に対する解釈の完全性の測定, (iv)分子特性予測へのGCIの実践的応用。
論文 参考訳(メタデータ) (2023-02-09T19:02:45Z) - Contextual Convolutional Neural Networks [16.378998802160375]
視覚認識のためのコンテキスト畳み込み(CoConv)を提案する。
CoConvは、畳み込みニューラルネットワークのコアコンポーネントである標準畳み込みの直接的な置き換えである。
論文 参考訳(メタデータ) (2021-08-17T00:42:11Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。