論文の概要: Bridging the gap to real-world language-grounded visual concept learning
- arxiv url: http://arxiv.org/abs/2510.21412v1
- Date: Fri, 24 Oct 2025 12:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.472589
- Title: Bridging the gap to real-world language-grounded visual concept learning
- Title(参考訳): 実世界の言語による視覚概念学習とのギャップを埋める
- Authors: Whie Jung, Semin Kim, Junee Kim, Seunghoon Hong,
- Abstract要約: 本稿では,画像関連概念の軸を適応的に識別し,現実のシーンにおけるこれらの軸に沿った視覚概念を基盤とするスケーラブルなフレームワークを提案する。
我々は、ImageNet、CelebA-HQ、AFHQのサブセットに対するフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 18.37183228394834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human intelligence effortlessly interprets visual scenes along a rich spectrum of semantic dimensions. However, existing approaches to language-grounded visual concept learning are limited to a few predefined primitive axes, such as color and shape, and are typically explored in synthetic datasets. In this work, we propose a scalable framework that adaptively identifies image-related concept axes and grounds visual concepts along these axes in real-world scenes. Leveraging a pretrained vision-language model and our universal prompting strategy, our framework identifies a diverse image-related axes without any prior knowledge. Our universal concept encoder adaptively binds visual features to the discovered axes without introducing additional model parameters for each concept. To ground visual concepts along the discovered axes, we optimize a compositional anchoring objective, which ensures that each axis can be independently manipulated without affecting others. We demonstrate the effectiveness of our framework on subsets of ImageNet, CelebA-HQ, and AFHQ, showcasing superior editing capabilities across diverse real-world concepts that are too varied to be manually predefined. Our method also exhibits strong compositional generalization, outperforming existing visual concept learning and text-based editing methods. The code is available at https://github.com/whieya/Language-grounded-VCL.
- Abstract(参考訳): ヒューマンインテリジェンス(英語版)は、視覚的なシーンを多彩なセマンティックな次元に沿って積極的に解釈する。
しかし、言語に基づく視覚的概念学習への既存のアプローチは、色や形状などの事前定義された原始軸に限られており、典型的には合成データセットで探索される。
本研究では,画像関連概念軸を適応的に識別し,現実のシーンにおけるこれらの軸に沿って視覚概念をグラウンド化する,スケーラブルなフレームワークを提案する。
事前学習された視覚言語モデルと我々の普遍的なプロンプト戦略を利用して、我々のフレームワークは、事前知識のない多様な画像関連軸を識別する。
我々の普遍的な概念エンコーダは、各概念に対して追加のモデルパラメータを導入することなく、発見された軸に視覚的特徴を適応的に結合する。
検出した軸に沿った視覚的概念を基盤として,各軸を他の軸に影響を与えずに独立に操作できる構成的アンカー目標を最適化する。
我々は、ImageNet、CelebA-HQ、AFHQのサブセットにおけるフレームワークの有効性を実証し、手動で事前定義できない多様な現実世界のコンセプトに対して優れた編集能力を示す。
また,既存の視覚概念学習やテキストベースの編集方法よりも優れた構成一般化を示す。
コードはhttps://github.com/whieya/Language-grounded-VCLで公開されている。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations [7.736445799116692]
概念に基づく手法は、ディープニューラルネットワークをポストホックで説明するのに一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法は,多様な概念を効率的にかつ確実に表現する能力を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。