論文の概要: Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations
- arxiv url: http://arxiv.org/abs/2311.17938v1
- Date: Tue, 28 Nov 2023 19:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:34:43.951444
- Title: Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations
- Title(参考訳): 能動的オープンボキャブラリ認識:知的移動型CLIP制限
- Authors: Lei Fan, Jianxiong Zhou, Xiaoying Xing and Ying Wu
- Abstract要約: オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
- 参考スコア(独自算出の注目度): 9.444540281544715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active recognition, which allows intelligent agents to explore observations
for better recognition performance, serves as a prerequisite for various
embodied AI tasks, such as grasping, navigation and room arrangements. Given
the evolving environment and the multitude of object classes, it is impractical
to include all possible classes during the training stage. In this paper, we
aim at advancing active open-vocabulary recognition, empowering embodied agents
to actively perceive and classify arbitrary objects. However, directly adopting
recent open-vocabulary classification models, like Contrastive Language Image
Pretraining (CLIP), poses its unique challenges. Specifically, we observe that
CLIP's performance is heavily affected by the viewpoint and occlusions,
compromising its reliability in unconstrained embodied perception scenarios.
Further, the sequential nature of observations in agent-environment
interactions necessitates an effective method for integrating features that
maintains discriminative strength for open-vocabulary classification. To
address these issues, we introduce a novel agent for active open-vocabulary
recognition. The proposed method leverages inter-frame and inter-concept
similarities to navigate agent movements and to fuse features, without relying
on class-specific knowledge. Compared to baseline CLIP model with 29.6%
accuracy on ShapeNet dataset, the proposed agent could achieve 53.3% accuracy
for open-vocabulary recognition, without any fine-tuning to the equipped CLIP
model. Additional experiments conducted with the Habitat simulator further
affirm the efficacy of our method.
- Abstract(参考訳): 知的なエージェントがより優れた認識性能のために観察を探索できるアクティブ認識は、把持、ナビゲーション、部屋の配置など、様々な具体化されたaiタスクの前提条件として機能する。
進化する環境と多数のオブジェクトクラスを考えると、トレーニングステージ中に可能なすべてのクラスを含めることは非現実的です。
本稿では,任意の対象を積極的に認識し分類するエンボディドエージェントの権限を付与し,アクティブなオープンボキャブラリー認識の促進を目指す。
しかし、Contrastive Language Image Pretraining (CLIP)のような最近のオープン語彙分類モデルを直接採用することは、そのユニークな課題を提起する。
具体的には,CLIPの性能は視点や閉塞の影響を強く受けており,非拘束的知覚シナリオにおける信頼性を損なう。
さらに、エージェント環境相互作用における観察のシーケンシャルな性質は、オープン語彙分類の識別力を維持する特徴を統合する効果的な方法を必要とする。
これらの課題に対処するために,オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
ShapeNetデータセットで29.6%の精度を持つベースラインCLIPモデルと比較して、提案されたエージェントは、装備されたCLIPモデルに微調整することなく、オープン語彙認識において53.3%の精度を達成することができた。
Habitatシミュレータを用いて追加実験を行い,本手法の有効性を確認した。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Is CLIP the main roadblock for fine-grained open-world perception? [7.190567053576658]
最近の研究では、オープン語彙設定における微粒化認識能力の制限が強調されている。
細粒度理解の欠如は,CLIP潜伏空間における物体特性の分離性の欠如が原因であることを示す。
実験の結果,単純なCLIP遅延空間再射は,微細な概念の分離に役立つことがわかった。
論文 参考訳(メタデータ) (2024-04-04T15:47:30Z) - FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action
Recognition [30.15770881713811]
オープン語彙行動認識のための効果的なフレームワークであるFROSTERを紹介する。
CLIPをアクション認識タスクに直接適用することは、CLIPの事前トレーニングに時間情報がないため、難しい。
我々はFROSTERを,ベース・ツー・ノーベルとクロス・データセットの両設定の下で,オープン・ボキャブラリ・アクション認識ベンチマークで広範囲に評価した。
論文 参考訳(メタデータ) (2024-02-05T17:56:41Z) - Evidential Active Recognition: Intelligent and Prudent Open-World
Embodied Perception [21.639429724987902]
アクティブな認識により、ロボットは新しい観察を探索し、望ましくない視界を回避しながらより多くの情報を得ることができる。
ほとんどの認識モジュールはクローズドワールドの仮定の下で開発されており、現在の観測における対象物体の欠如のような予期せぬ入力を処理できない。
本稿では,有効認識を逐次的エビデンス収集プロセスとして扱うことを提案する。
論文 参考訳(メタデータ) (2023-11-23T03:51:46Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Open-set Adversarial Defense with Clean-Adversarial Mutual Learning [93.25058425356694]
本稿では, オープンセット認識システムは, 対向サンプルに対して脆弱であることを示す。
これらの観測により,我々はオープンセット・ディフェンス(OSAD)機構の必要性を強調した。
本稿では,OSAD問題に対する解決策として,OSDN-CAML(Create-Adversarial Mutual Learning)を用いたオープンセット防衛ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-12T02:13:55Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。