論文の概要: Multi-Grained Compositional Visual Clue Learning for Image Intent Recognition
- arxiv url: http://arxiv.org/abs/2504.18201v1
- Date: Fri, 25 Apr 2025 09:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.716093
- Title: Multi-Grained Compositional Visual Clue Learning for Image Intent Recognition
- Title(参考訳): 画像インテント認識のための多点合成ビジュアルクローズラーニング
- Authors: Yin Tang, Jiankai Li, Hongyu Yang, Xuan Dong, Lifeng Fan, Weixin Li,
- Abstract要約: 我々は、画像意図認識におけるこれらの課題に対処するために、MCCL(Multi-fine compositional visual Clue Learning)という新しいアプローチを導入する。
本手法は,意図認識を視覚的手がかり合成に分解し,多粒な特徴を統合することで,人間の認知の体系的構成性を活用する。
我々は、グラフ畳み込みネットワークを用いて、ラベル埋め込み相関を通じて事前知識を注入し、意図認識を多ラベル分類問題として扱う。
- 参考スコア(独自算出の注目度): 14.435031094457026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an era where social media platforms abound, individuals frequently share images that offer insights into their intents and interests, impacting individual life quality and societal stability. Traditional computer vision tasks, such as object detection and semantic segmentation, focus on concrete visual representations, while intent recognition relies more on implicit visual clues. This poses challenges due to the wide variation and subjectivity of such clues, compounded by the problem of intra-class variety in conveying abstract concepts, e.g. "enjoy life". Existing methods seek to solve the problem by manually designing representative features or building prototypes for each class from global features. However, these methods still struggle to deal with the large visual diversity of each intent category. In this paper, we introduce a novel approach named Multi-grained Compositional visual Clue Learning (MCCL) to address these challenges for image intent recognition. Our method leverages the systematic compositionality of human cognition by breaking down intent recognition into visual clue composition and integrating multi-grained features. We adopt class-specific prototypes to alleviate data imbalance. We treat intent recognition as a multi-label classification problem, using a graph convolutional network to infuse prior knowledge through label embedding correlations. Demonstrated by a state-of-the-art performance on the Intentonomy and MDID datasets, our approach advances the accuracy of existing methods while also possessing good interpretability. Our work provides an attempt for future explorations in understanding complex and miscellaneous forms of human expression.
- Abstract(参考訳): ソーシャルメディアプラットフォームが普及している時代には、個人は自分の意図や関心についての洞察を提供するイメージを共有し、個人の生活の質や社会的安定性に影響を与える。
オブジェクト検出やセマンティックセグメンテーションのような伝統的なコンピュータビジョンタスクは、具体的な視覚表現に焦点を当て、意図認識は暗黙の視覚的手がかりに依存している。
このことは、抽象的な概念、例えば「喜びの人生」を伝達する際、クラス内変種の問題によって複合される、そのような手がかりの広範な変動と主観性によって、課題を提起する。
既存の手法では,グローバルな特徴から代表的特徴を手作業で設計したり,各クラスのプロトタイプを構築したりすることで,問題の解決を目指している。
しかし、これらの手法は、意図のカテゴリーごとに大きな視覚的多様性を扱うのに依然として苦労している。
本稿では,画像意図認識におけるこれらの課題に対処するため,MCCL (Multi-fine compositional visual Clue Learning) という新しい手法を提案する。
本手法は,意図認識を視覚的手がかり合成に分解し,多粒な特徴を統合することで,人間の認知の体系的構成性を活用する。
データの不均衡を軽減するために、クラス固有のプロトタイプを採用しています。
我々は、グラフ畳み込みネットワークを用いて、ラベル埋め込み相関を通じて事前知識を注入し、意図認識を多ラベル分類問題として扱う。
Intentonomy と MDID データセットの最先端性能を実証し,既存の手法の精度を向上し,優れた解釈性も確保した。
我々の研究は、人間の表現の複雑で雑多な形態を理解するための将来の探索の試みを提供する。
関連論文リスト
- Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Exploring Visual Engagement Signals for Representation Learning [56.962033268934015]
VisEは、クラスタ化されたエンゲージメント信号から派生した擬似ラベルにソーシャルイメージをマップする弱い教師付き学習アプローチである。
この方法でトレーニングされたモデルが、感情認識や政治的バイアス検出といった主観的なコンピュータビジョンタスクにどのように役立つかを研究する。
論文 参考訳(メタデータ) (2021-04-15T20:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。