論文の概要: Informative Text-Image Alignment for Visual Affordance Learning with Foundation Models
- arxiv url: http://arxiv.org/abs/2509.17074v1
- Date: Sun, 21 Sep 2025 13:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.100809
- Title: Informative Text-Image Alignment for Visual Affordance Learning with Foundation Models
- Title(参考訳): 基礎モデルを用いた視覚訓練のためのインフォーマティブテキスト画像アライメント
- Authors: Qian Zhang, Lin Zhang, Xing Fang, Mingxin Zhang, Zhiyuan Wei, Ran Song, Wei Zhang,
- Abstract要約: 本稿では,機能レベルでのテキスト画像のアライメントを実現するために,情報に基づく制約を伴ってテキスト誘導型アプライアンス学習のためのフレームワークを提案する。
具体的には、適切なテキストプロンプトとタスク指向の視覚的特徴を同時に学習するのに役立つ割高な相互情報制約を設計する。
さらに,対象物の視覚的特徴と属するカテゴリのテキスト的特徴との間の相互情報を最大化するオブジェクトレベルの情報制約を提案する。
- 参考スコア(独自算出の注目度): 13.874282137468517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual affordance learning is crucial for robots to understand and interact effectively with the physical world. Recent advances in this field attempt to leverage pre-trained knowledge of vision-language foundation models to learn affordance properties with limited training data, providing a novel paradigm for visual affordance learning. However, these methods overlook the significance of maintaining feature alignment between visual images and language descriptions for identifying affordance areas with textual guidance, and thus may lead to suboptimal results. In this paper, we present an informative framework for text-guided affordance learning, which involves information-based constraints to achieve text-image alignment at feature level. Specifically, we design an affordance mutual information constraint that helps learn appropriate textual prompts and task-oriented visual features simultaneously by maximizing the mutual information between the features of the affordance areas in the input images and the corresponding textual prompts. In addition, we propose an object-level information constraint that maximizes the mutual information between the visual features of a given object and the text features of the category it belongs to. This enables the model to capture high-quality representations for the object, providing more reliable semantic priors for identifying affordance regions. Experimental results on the AGD20K dataset show that the proposed method outperforms existing approaches and achieves the new state-of-the-art in one-shot affordance learning.
- Abstract(参考訳): 視覚的余裕学習は、ロボットが物理的世界を理解し、効果的に対話するために不可欠である。
この分野の最近の進歩は、視覚言語基礎モデルの事前訓練された知識を活用して、限られた訓練データで可視性を学ぶことであり、視覚的可視性学習のための新しいパラダイムを提供する。
しかし, これらの手法は, テキスト指導による手頃な地域を特定するために, 視覚画像と言語記述の特徴的整合性を維持することの重要性を軽視し, 準最適結果をもたらす可能性がある。
本稿では,機能レベルでのテキスト画像アライメントを実現するために,情報に基づく制約を伴ってテキスト誘導型アプライアンス学習のための情報フレームワークを提案する。
具体的には、入力画像中の空き領域の特徴と対応するテキストプロンプトとの間の相互情報を最大化することにより、適切なテキストプロンプトとタスク指向の視覚特徴を同時に学習するのに役立つ空き空間情報制約を設計する。
さらに,対象物の視覚的特徴と属するカテゴリのテキスト的特徴との間の相互情報を最大化するオブジェクトレベルの情報制約を提案する。
これにより、モデルはオブジェクトの高品質な表現をキャプチャし、アベイランス領域を特定するためのより信頼性の高いセマンティックな事前情報を提供する。
AGD20Kデータセットによる実験結果から,提案手法は既存の手法よりも優れており,一発学習における新たな最先端の学習を実現していることがわかった。
関連論文リスト
- Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。