論文の概要: What does CLIP know about peeling a banana?
- arxiv url: http://arxiv.org/abs/2404.12015v1
- Date: Thu, 18 Apr 2024 09:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.627167
- Title: What does CLIP know about peeling a banana?
- Title(参考訳): CLIPはバナナの皮をむくことについて何を知っているのか?
- Authors: Claudia Cuttano, Gabriele Rosi, Gabriele Trivigno, Giuseppe Averta,
- Abstract要約: 知的なロボットが日々の生活の物体を使えるようにするためには、必要なタスクに応じて物体を分割できることが不可欠だ。
従来の割当セグメンテーションのための教師付き学習手法は、高価なピクセルレベルのアノテーションを必要とする。
本稿では,大規模な事前学習型ビジョンランゲージモデルに埋め込まれた暗黙のアベイランス知識を活用することで,これらの制約を克服するAffordanceCLIPを提案する。
- 参考スコア(独自算出の注目度): 0.9969273676833554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans show an innate capability to identify tools to support specific actions. The association between objects parts and the actions they facilitate is usually named affordance. Being able to segment objects parts depending on the tasks they afford is crucial to enable intelligent robots to use objects of daily living. Traditional supervised learning methods for affordance segmentation require costly pixel-level annotations, while weakly supervised approaches, though less demanding, still rely on object-interaction examples and support a closed set of actions. These limitations hinder scalability, may introduce biases, and usually restrict models to a limited set of predefined actions. This paper proposes AffordanceCLIP, to overcome these limitations by leveraging the implicit affordance knowledge embedded within large pre-trained Vision-Language models like CLIP. We experimentally demonstrate that CLIP, although not explicitly trained for affordances detection, retains valuable information for the task. Our AffordanceCLIP achieves competitive zero-shot performance compared to methods with specialized training, while offering several advantages: i) it works with any action prompt, not just a predefined set; ii) it requires training only a small number of additional parameters compared to existing solutions and iii) eliminates the need for direct supervision on action-object pairs, opening new perspectives for functionality-based reasoning of models.
- Abstract(参考訳): 人間は、特定のアクションをサポートするツールを識別する能力を示す。
対象部品とそれらが促進する行動の関連は通常、余裕と呼ばれる。
知的なロボットが日々の生活の物体を使えるようにするためには、必要なタスクに応じて物体を分割できることが不可欠だ。
従来の割当セグメンテーションのための教師付き学習手法は、コストの高いピクセルレベルのアノテーションを必要とするが、弱い教師付きアプローチは、要求の少ないものの、それでもオブジェクト-インタラクションの例に頼り、クローズドなアクションのセットをサポートする。
これらの制限はスケーラビリティを妨げ、バイアスを生じさせ、通常、事前定義されたアクションの限られたセットにモデルを制限します。
本稿では,CLIPのような大規模トレーニング済みビジョンランゲージモデルに埋め込まれた暗黙のアベイランス知識を活用することで,これらの制限を克服する。
CLIPは, 空き時間検出のために明示的に訓練されていないが, タスクに有用な情報を保持することを実験的に実証した。
私たちのAffordanceCLIPは、特別なトレーニングを行う方法と比較して、競争力のあるゼロショットのパフォーマンスを実現しています。
i) 予め定義されたセットだけでなく,いかなるアクションプロンプトでも機能する。
二 既存のソリューションと比べ、少数の追加パラメータのみを訓練すること。
三 行動対象ペアの直接監督の必要性を排除し、モデルの機能に基づく推論のための新たな視点を開くこと。
関連論文リスト
- Is CLIP the main roadblock for fine-grained open-world perception? [7.190567053576658]
最近の研究では、オープン語彙設定における微粒化認識能力の制限が強調されている。
細粒度理解の欠如は,CLIP潜伏空間における物体特性の分離性の欠如が原因であることを示す。
実験の結果,単純なCLIP遅延空間再射は,微細な概念の分離に役立つことがわかった。
論文 参考訳(メタデータ) (2024-04-04T15:47:30Z) - CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models [23.398619576886375]
継続学習(CL)は、ディープラーニングが学習したものを保持しながら、新しい知識を学ぶのを支援することを目的としている。
タスクごとの視覚誘導テキスト機能に対する確率的モデリングフレームワークであるCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。
論文 参考訳(メタデータ) (2024-03-28T04:15:58Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Instance-aware, Context-focused, and Memory-efficient Weakly Supervised
Object Detection [184.563345153682]
我々は、弱教師付き学習のためのインスタンス認識とコンテキスト重視の統合フレームワークを開発する。
メモリ効率の高いシーケンシャルバッチバックプロパゲーションを考案しながら、インスタンス対応の自己学習アルゴリズムと学習可能なコンクリートドロップブロックを採用している。
提案手法はCOCO(12.1% AP$、24.8% AP_50$)、VOC 2007(54.9% AP$)、VOC 2012(52.1% AP$)の最先端結果である。
論文 参考訳(メタデータ) (2020-04-09T17:57:09Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。