論文の概要: One-Shot Open Affordance Learning with Foundation Models
- arxiv url: http://arxiv.org/abs/2311.17776v1
- Date: Wed, 29 Nov 2023 16:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:46:01.684315
- Title: One-Shot Open Affordance Learning with Foundation Models
- Title(参考訳): 基礎モデルによるワンショットオープン学習
- Authors: Gen Li, Deqing Sun, Laura Sevilla-Lara, Varun Jampani
- Abstract要約: 私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 54.15857111929812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce One-shot Open Affordance Learning (OOAL), where a model is
trained with just one example per base object category, but is expected to
identify novel objects and affordances. While vision-language models excel at
recognizing novel objects and scenes, they often struggle to understand finer
levels of granularity such as affordances. To handle this issue, we conduct a
comprehensive analysis of existing foundation models, to explore their inherent
understanding of affordances and assess the potential for data-limited
affordance learning. We then propose a vision-language framework with simple
and effective designs that boost the alignment between visual features and
affordance text embeddings. Experiments on two affordance segmentation
benchmarks show that the proposed method outperforms state-of-the-art models
with less than 1% of the full training data, and exhibits reasonable
generalization capability on unseen objects and affordances.
- Abstract(参考訳): そこでは、モデルがベースオブジェクトのカテゴリごとに1つの例で訓練されるが、新しいオブジェクトやアプライアンスを特定することが期待されている。
視覚言語モデルは、新しいオブジェクトやシーンを認識するのに優れているが、しばしば、アフォーマンスのような細かい粒度のレベルを理解するのに苦労している。
この問題に対処するため,我々は既存の基礎モデルの包括的分析を行い,その固有理解を探究し,データ制限型アフォーアンス学習の可能性を評価する。
次に,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションベンチマーク実験により,提案手法はトレーニングデータの1%未満で最先端のモデルより優れており,未確認のオブジェクトやアベイランスに対して合理的な一般化能力を示す。
関連論文リスト
- Few-shot target-driven instance detection based on open-vocabulary object detection models [1.0749601922718608]
オープンボキャブラリオブジェクト検出モデルは、同じ潜在空間において、より近い視覚的およびテキスト的概念をもたらす。
テキスト記述を必要とせずに,後者をワンショットあるいは少数ショットのオブジェクト認識モデルに変換する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:03:15Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Few Shot Class Incremental Learning using Vision-Language models [24.930246674021525]
本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
論文 参考訳(メタデータ) (2024-05-02T06:52:49Z) - Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。
我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文 参考訳(メタデータ) (2023-12-06T14:54:10Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。