論文の概要: FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations
- arxiv url: http://arxiv.org/abs/2203.16639v1
- Date: Wed, 30 Mar 2022 19:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:25:08.572730
- Title: FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations
- Title(参考訳): falcon: 画像, 言語記述, 概念関係の統合による高速な視覚概念学習
- Authors: Lingjie Mei, Jiayuan Mao, Ziqi Wang, Chuang Gan, Joshua B. Tenenbaum
- Abstract要約: 自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 99.54048050189971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a meta-learning framework for learning new visual concepts
quickly, from just one or a few examples, guided by multiple naturally
occurring data streams: simultaneously looking at images, reading sentences
that describe the objects in the scene, and interpreting supplemental sentences
that relate the novel concept with other concepts. The learned concepts support
downstream applications, such as answering questions by reasoning about unseen
images. Our model, namely FALCON, represents individual visual concepts, such
as colors and shapes, as axis-aligned boxes in a high-dimensional space (the
"box embedding space"). Given an input image and its paired sentence, our model
first resolves the referential expression in the sentence and associates the
novel concept with particular objects in the scene. Next, our model interprets
supplemental sentences to relate the novel concept with other known concepts,
such as "X has property Y" or "X is a kind of Y". Finally, it infers an optimal
box embedding for the novel concept that jointly 1) maximizes the likelihood of
the observed instances in the image, and 2) satisfies the relationships between
the novel concepts and the known ones. We demonstrate the effectiveness of our
model on both synthetic and real-world datasets.
- Abstract(参考訳): 画像の同時閲覧、シーン内の対象を記述した文章の読解、新しい概念と他の概念を関連付けた補足文の解釈など、複数の自然発生データストリームによって導かれる1つか数つの例から、新しい視覚概念を素早く学習するためのメタ学習フレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
我々のモデル、すなわちFALCONは、高次元空間(ボックス埋め込み空間)における軸整列ボックスとして色や形状などの個々の視覚概念を表す。
入力画像とその対文が与えられた場合,本モデルはまず文の参照表現を解消し,新たな概念をシーン内の特定の対象と関連付ける。
次に,本モデルは,「X has property Y」や「X is a kind of Y」など,新しい概念と他の既知の概念を関連づけるために補足文を解釈する。
最後に、共同で新しい概念のための最適なボックス埋め込みを推測します。
1)画像中の観測されたインスタンスの可能性を最大化し、
2)新しい概念と既知の概念との関係を満足する。
本モデルの有効性を合成データと実世界データの両方で実証する。
関連論文リスト
- Knowledge Transfer Across Modalities with Natural Language Supervision [8.493435472659646]
我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。
知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
論文 参考訳(メタデータ) (2024-11-23T17:26:50Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - What do Deck Chairs and Sun Hats Have in Common? Uncovering Shared
Properties in Large Concept Vocabularies [33.879307754303746]
概念は多くのアプリケーションにおいて中心的な役割を果たす。
これまでの研究は、言語モデルから非文脈化概念の埋め込みを蒸留することに重点を置いてきた。
我々は,潜在的に大きな概念語彙から,他の概念と共通する概念を識別する戦略を提案する。
そして、それらが他の概念と共有する性質の観点で概念を表現する。
論文 参考訳(メタデータ) (2023-10-23T10:53:25Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。