論文の概要: Visually Grounded Concept Composition
- arxiv url: http://arxiv.org/abs/2109.14115v1
- Date: Wed, 29 Sep 2021 00:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:51:46.470051
- Title: Visually Grounded Concept Composition
- Title(参考訳): 視覚的接地型概念構成
- Authors: Bowen Zhang, Hexiang Hu, Linlu Qiu, Peter Shaw, Fei Sha
- Abstract要約: 我々はこれらを画像に合わせることによって、原始概念と全構成概念の両方の基礎を学ぶ。
そこで本研究では,テキストと画像のマッチング精度を指標として,合成学習がより堅牢なグラウンド化結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 31.981204314287282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate ways to compose complex concepts in texts from primitive ones
while grounding them in images. We propose Concept and Relation Graph (CRG),
which builds on top of constituency analysis and consists of recursively
combined concepts with predicate functions. Meanwhile, we propose a concept
composition neural network called Composer to leverage the CRG for visually
grounded concept learning. Specifically, we learn the grounding of both
primitive and all composed concepts by aligning them to images and show that
learning to compose leads to more robust grounding results, measured in
text-to-image matching accuracy. Notably, our model can model grounded concepts
forming at both the finer-grained sentence level and the coarser-grained
intermediate level (or word-level). Composer leads to pronounced improvement in
matching accuracy when the evaluation data has significant compound divergence
from the training data.
- Abstract(参考訳): 我々は,テキストの複雑な概念を原始的な概念から合成し,それらを画像にグラウンド化する方法を検討する。
本稿では,構成分析の上に構築され,帰納的結合概念と述語関数からなる概念関係グラフ(crg)を提案する。
一方,概念学習においてCRGを活用するために,Composerと呼ばれる概念合成ニューラルネットワークを提案する。
具体的には、原始概念と全構成概念の両方の基底を画像に整列させることで学習し、合成する学習がテキストと画像のマッチング精度で測定されたより堅牢な基底化結果をもたらすことを示す。
特に,粗粒度と粗粒度中間レベル(あるいは単語レベル)の両方で形成される接地概念をモデル化できる。
コンストラクタは、評価データがトレーニングデータから有意な複合分散を有する場合、マッチング精度が顕著に向上する。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Towards Compositionality in Concept Learning [20.960438848942445]
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。
これらの特性に従う概念を見つけるための合成概念抽出(CCE)を提案する。
CCEは、ベースラインよりも構成的な概念表現を見つけ、下流の4つの分類タスクでより良い精度を得る。
論文 参考訳(メタデータ) (2024-06-26T17:59:30Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Improving Image Captioning via Predicting Structured Concepts [46.88858655641866]
本研究では,概念とその構造を予測するための構造的概念予測器を提案し,それをキャプションに統合する。
我々は、単語依存によって駆動される概念関係を記述するために、重み付きグラフ畳み込みネットワーク(W-GCN)を設計する。
提案手法は,概念間の潜在的な関係を捉え,異なる概念を識別的に学習することにより,画像キャプションの継承を容易にする。
論文 参考訳(メタデータ) (2023-11-14T15:01:58Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。