論文の概要: "I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts
- arxiv url: http://arxiv.org/abs/2504.15145v1
- Date: Mon, 21 Apr 2025 14:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:11:33.73036
- Title: "I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts
- Title(参考訳): I Know It When I See It: Mood Spaces for Connecting and Expressing Visual Concepts
- Authors: Huzheng Yang, Katherine Xu, Michael D. Grossberg, Yutong Bai, Jianbo Shi,
- Abstract要約: 提案するMood Boardでは,属性変化の意図した方向を示唆する例で抽象概念を伝達する。
我々は,無関係な特徴を判断する基盤となるMood Spaceを計算し,2)画像間の接続を見つけ,関連する概念をより深くする。
私たちの学習は微調整なしで計算に効率的であり、ほんの数(2~20)の模範しか必要とせず、学習に1分もかからない。
- 参考スコア(独自算出の注目度): 13.222207570973854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressing complex concepts is easy when they can be labeled or quantified, but many ideas are hard to define yet instantly recognizable. We propose a Mood Board, where users convey abstract concepts with examples that hint at the intended direction of attribute changes. We compute an underlying Mood Space that 1) factors out irrelevant features and 2) finds the connections between images, thus bringing relevant concepts closer. We invent a fibration computation to compress/decompress pre-trained features into/from a compact space, 50-100x smaller. The main innovation is learning to mimic the pairwise affinity relationship of the image tokens across exemplars. To focus on the coarse-to-fine hierarchical structures in the Mood Space, we compute the top eigenvector structure from the affinity matrix and define a loss in the eigenvector space. The resulting Mood Space is locally linear and compact, allowing image-level operations, such as object averaging, visual analogy, and pose transfer, to be performed as a simple vector operation in Mood Space. Our learning is efficient in computation without any fine-tuning, needs only a few (2-20) exemplars, and takes less than a minute to learn.
- Abstract(参考訳): 複雑な概念の表現はラベル付けや定量化が可能である場合に容易であるが、多くのアイデアはすぐに定義することは困難である。
提案するMood Boardでは,属性変化の意図した方向を示唆する例で抽象概念を伝達する。
私たちは、基礎となるMood Spaceを計算します。
1)無関係な特徴と要因
2) 画像間の接続を見つけ, 関連概念を近づける。
我々は,50~100倍小さいコンパクト空間に,事前学習した特徴を圧縮・圧縮するフィブレーション計算を発明した。
主なイノベーションは、画像トークンの相互親和性関係を模擬することである。
ムード空間の粗大な階層構造に焦点を合わせるため、親和性行列からトップ固有ベクトル構造を計算し、固有ベクトル空間の損失を定義する。
得られたMood Spaceは局所的に線形でコンパクトであり、オブジェクト平均化、視覚的類似、ポーズ転送といった画像レベルの操作を、Mood Spaceの単純なベクトル演算として行うことができる。
私たちの学習は微調整なしで計算に効率的であり、ほんの数(2~20)の模範しか必要とせず、学習に1分もかからない。
関連論文リスト
- Statistical Mechanics of Semantic Compression [0.0]
我々は,認知神経科学と機械学習からインスピレーションを得て,連続ユークリッドベクトル空間としてのセマンティック空間をモデル化する。
我々は、最小長の意味保存メッセージを決定する最適化問題をスピングラスハミルトニアンにマップする。
最悪な場合、意味保存圧縮を見つける問題は計算的に難しいが、ほぼ最適な性能を実現する効率的なアルゴリズムが存在すると論じる。
論文 参考訳(メタデータ) (2025-03-01T20:38:16Z) - Binder: Hierarchical Concept Representation through Order Embedding of Binary Vectors [3.9271338080639753]
順序に基づく表現のための新しいアプローチであるBinderを提案する。
Binderは埋め込みにバイナリベクトルを使用するため、埋め込みベクトルは他の方法よりもはるかに小さなフットプリントでコンパクトである。
論文 参考訳(メタデータ) (2024-04-16T21:52:55Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Grounding Psychological Shape Space in Convolutional Neural Networks [0.0]
我々は畳み込みニューラルネットワークを用いて、知覚入力間の一般化可能なマッピングと、最近提案された形状領域の心理学的類似性空間を学習する。
この結果から,分類に基づくマルチタスク学習シナリオが最も優れた結果が得られるが,その性能は類似性空間の次元に比較的敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-11-16T12:21:07Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Impression Space from Deep Template Network [72.86001835304185]
トレーニングされた畳み込みニューラルネットワークは、入力イメージを“記憶”する能力を持っていることを示す。
本稿では,既訓練の既訓練ネットワーク上でのEmphImpression Spaceを確立するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-10T15:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。