論文の概要: Knowledge Transfer Across Modalities with Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2411.15611v1
- Date: Sat, 23 Nov 2024 17:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:05.440798
- Title: Knowledge Transfer Across Modalities with Natural Language Supervision
- Title(参考訳): 自然言語によるモーダリティ間の知識伝達
- Authors: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto,
- Abstract要約: 我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。
知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
- 参考スコア(独自算出の注目度): 8.493435472659646
- License:
- Abstract: We present a way to learn novel concepts by only using their textual description. We call this method Knowledge Transfer. Similarly to human perception, we leverage cross-modal interaction to introduce new concepts. We hypothesize that in a pre-trained visual encoder there are enough low-level features already learned (e.g. shape, appearance, color) that can be used to describe previously unknown high-level concepts. Provided with a textual description of the novel concept, our method works by aligning the known low-level features of the visual encoder to its high-level textual description. We show that Knowledge Transfer can successfully introduce novel concepts in multimodal models, in a very efficient manner, by only requiring a single description of the target concept. Our approach is compatible with both separate textual and visual encoders (e.g. CLIP) and shared parameters across modalities. We also show that, following the same principle, Knowledge Transfer can improve concepts already known by the model. Leveraging Knowledge Transfer we improve zero-shot performance across different tasks such as classification, segmentation, image-text retrieval, and captioning.
- Abstract(参考訳): テキスト記述のみを用いて新しい概念を学習する方法を提案する。
我々はこの手法を知識伝達と呼ぶ。
人間の知覚と同様に、私たちは新しい概念を導入するために相互モーダル相互作用を活用します。
事前学習されたビジュアルエンコーダには、以前に未知の高レベル概念を記述するために使用可能な、既に学習されている低レベル特徴(例えば、形状、外観、色)が十分に存在すると仮定する。
本手法は,新しい概念のテキスト記述を用いて,視覚エンコーダの既知の低レベル特徴を高レベルなテキスト記述に整合させることによって機能する。
本稿では,対象概念の単一記述のみを必要とすることで,多モーダルモデルにおける新しい概念を極めて効率的な方法で導入できることを示す。
我々のアプローチは、テキストエンコーダとビジュアルエンコーダ(例えばCLIP)の分離と、モジュール間の共有パラメータとの互換性がある。
また、同じ原理に従って、知識伝達がモデルで既に知られている概念を改善できることも示している。
知識伝達を活用することにより、分類、セグメンテーション、画像テキスト検索、キャプションなど、さまざまなタスクにおけるゼロショット性能が向上する。
関連論文リスト
- Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Conceptual Codebook Learning for Vision-Language Models [27.68834532978939]
視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。
視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。
この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
論文 参考訳(メタデータ) (2024-07-02T15:16:06Z) - Learning Structure and Knowledge Aware Representation with Large Language Models for Concept Recommendation [50.31872005772817]
概念推薦は,学習者が自身の知識状態と人間の知識システムに基づいて学習する次の概念を提案することを目的としている。
従来のアプローチでは、人間の知識システムをこれらの教育モデルを設計するプロセスに効果的に統合していない。
SKarREC(Structure and Knowledge Aware Representation Learning framework for concept Recommendation)を提案する。
論文 参考訳(メタデータ) (2024-05-21T01:35:36Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。