論文の概要: CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2603.09286v1
- Date: Tue, 10 Mar 2026 07:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.117621
- Title: CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation
- Title(参考訳): CogBlender: テキスト・画像生成における継続的な認知的介入を目指して
- Authors: Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao,
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成における認知特性の連続的・多次元的介入を可能にするフレームワークであるCogBlenderを紹介する。
私たちの仕事は、認知主導の創造的デザインに効果的なパラダイムを提供します。
- 参考スコア(独自算出の注目度): 12.705439750438655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beyond conveying semantic information, an image can also manifest cognitive attributes that elicit specific cognitive processes from the viewer, such as memory encoding or emotional response. While modern text-to-image models excel at generating semantically coherent content, they remain limited in their ability to control such cognitive properties of images (e.g., valence, memorability), often failing to align with the specific psychological intent. To bridge this gap, we introduce CogBlender, a framework that enables continuous and multi-dimensional intervention of cognitive properties during text-to-image generation. Our approach is built upon a mapping between the Cognitive Space, representing the space of cognitive properties, and the Semantic Manifold, representing the manifold of the visual semantics. We define a set of Cognitive Anchors, serving as the boundary points for the cognitive space. Then we reformulate the velocity field within the flow-matching process by interpolating from the velocity field of different anchors. Consequently, the generative process is driven by the velocity field and dynamically steered by multi-dimensional cognitive scores, enabling precise, fine-grained, and continuous intervention. We validate the effectiveness of CogBlender across four representative cognitive dimensions: valence, arousal, dominance, and image memorability. Extensive experiments demonstrate that our method achieves effective cognitive intervention. Our work provides an effective paradigm for cognition-driven creative design.
- Abstract(参考訳): 意味情報を伝達する以外に、イメージは、メモリエンコーディングや感情応答など、ビューアから特定の認知プロセスを引き出す認知特性を示すこともできる。
現代のテキスト・ツー・イメージモデルは意味的コヒーレントなコンテンツを生成するのに優れているが、イメージの認知的特性(例えば、原子価、記憶可能性)を制御できる能力は限定的であり、しばしば特定の心理的意図と一致しない。
このギャップを埋めるため,テキスト・ツー・イメージ生成における認知特性の連続的・多次元的介入を可能にするフレームワークであるCogBlenderを導入する。
本手法は,認知的特性の空間を表す認知空間と,視覚的意味論の多様体を表すセマンティック・マニフォールドのマッピングに基づいている。
認知空間の境界点として機能する認知アンカーの集合を定義する。
次に、異なるアンカーの速度場から補間することにより、フローマッチングプロセス内の速度場を再構成する。
その結果、生成過程は速度場によって駆動され、多次元認知スコアによって動的に制御され、正確できめ細かな、継続的な介入を可能にする。
CgBlenderの有効性は, 有病率, 覚醒率, 優位性, 画像記憶可能性の4つにまたがって検証した。
本手法が効果的な認知介入を実現することを実証した。
私たちの仕事は、認知主導の創造的デザインに効果的なパラダイムを提供します。
関連論文リスト
- Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。
人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。
本モデルは感情分布予測のための感情情報表現を学習する。
論文 参考訳(メタデータ) (2026-02-24T04:11:25Z) - Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images [36.44183173680125]
MLLM(Multimodal Large Language Models)は、画像の識別対象に何があるのかを答える能力を持っているが、人間の観察者に対してイメージがどのように感じるかを理解する能力に欠けることが多い。
このギャップは、イメージを記憶しやすく、面白く、審美的に喜ばせ、感情的に刺激的になるような、主観的な認知特性を考える際に最も顕著である。
画像認識特性のMLLMを評価するための総合的なベンチマークであるCogIP-Benchを紹介する。
論文 参考訳(メタデータ) (2025-11-27T23:30:24Z) - Spontaneous Spatial Cognition Emerges during Egocentric Video Viewing through Non-invasive BCI [42.53877172400408]
非侵襲的な脳とコンピュータのインタフェースが、自然に細粒度のエゴセントリックな6Dポーズをデコードできることを初めて示す。
脳波の空間分解能の制限と高信号ノイズにもかかわらず、空間的コヒーレントな視覚入力は、陰極性空間表現を確実に引き起こす。
論文 参考訳(メタデータ) (2025-07-16T17:07:57Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Latent Structured Hopfield Network for Semantic Association and Retrieval [52.634915010996835]
エピソード記憶は、オブジェクト、場所、時間などの意味的要素をコヒーレントなイベント表現に関連付けることによって、過去の経験を思い出すことができる。
本稿では,連続ホップフィールドアトラクタダイナミクスを自動エンコーダアーキテクチャに統合するフレームワークであるLatent Structured Hopfield Network (LSHN)を提案する。
従来のホップフィールドネットワークとは異なり、我々のモデルは勾配勾配でエンドツーエンドに訓練され、スケーラブルで堅牢なメモリ検索を実現する。
論文 参考訳(メタデータ) (2025-06-02T04:24:36Z) - Alien Recombination: Exploring Concept Blends Beyond Human Cognitive Availability in Visual Art [90.8684263806649]
視覚芸術の創造において、AIが人間の認知的限界を超越する方法を示します。
我々の研究は、視覚芸術には膨大な未探索の概念的組み合わせが含まれているという仮説を立てている。
本稿では,人間の認知能力を超えた概念の組み合わせを同定し,生成するエイリアン組換え法を提案する。
論文 参考訳(メタデータ) (2024-11-18T11:55:38Z) - Emotion Recognition from the perspective of Activity Recognition [0.0]
人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。
感情認識システムが現実のモバイルおよびコンピューティングデバイスにデプロイされ統合されるためには、世界中の収集されたデータを考慮する必要がある。
本稿では,注目機構を備えた新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-24T18:53:57Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。