論文の概要: Cross-Modal Alignment Learning of Vision-Language Conceptual Systems
- arxiv url: http://arxiv.org/abs/2208.01744v1
- Date: Sun, 31 Jul 2022 08:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:02:47.387345
- Title: Cross-Modal Alignment Learning of Vision-Language Conceptual Systems
- Title(参考訳): 視覚言語概念システムのクロスモーダルアライメント学習
- Authors: Taehyeong Kim, Hyeonseop Song, Byoung-Tak Zhang
- Abstract要約: 幼児の単語学習メカニズムに触発された視覚言語概念体系を学習する手法を提案する。
提案モデルでは、視覚オブジェクトと単語の関連性をオンラインで学習し、徐々に相互関係グラフネットワークを構築している。
- 参考スコア(独自算出の注目度): 24.423011687551433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human infants learn the names of objects and develop their own conceptual
systems without explicit supervision. In this study, we propose methods for
learning aligned vision-language conceptual systems inspired by infants' word
learning mechanisms. The proposed model learns the associations of visual
objects and words online and gradually constructs cross-modal relational graph
networks. Additionally, we also propose an aligned cross-modal representation
learning method that learns semantic representations of visual objects and
words in a self-supervised manner based on the cross-modal relational graph
networks. It allows entities of different modalities with conceptually the same
meaning to have similar semantic representation vectors. We quantitatively and
qualitatively evaluate our method, including object-to-word mapping and
zero-shot learning tasks, showing that the proposed model significantly
outperforms the baselines and that each conceptual system is topologically
aligned.
- Abstract(参考訳): 人間の幼児はオブジェクトの名前を学び、明示的な監督なしに独自の概念システムを開発する。
本研究では,幼児の単語学習に触発された視覚言語概念体系を学習する手法を提案する。
提案モデルは,視覚オブジェクトと単語の関連をオンライン上で学習し,徐々に相互モーダル関係グラフネットワークを構築する。
さらに,クロスモーダル関係グラフネットワークに基づいて,視覚オブジェクトと単語の意味表現を自己教師あり方式で学習するアライメント型クロスモーダル表現学習手法を提案する。
概念的に同じ意味を持つ異なるモダリティを持つエンティティが、同様の意味表現ベクトルを持つことができる。
対象語間マッピングやゼロショット学習タスクを含む手法を定量的に定性的に評価し,提案手法がベースラインを著しく上回り,各概念系がトポロジ的に整合していることを示す。
関連論文リスト
- A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Grounded learning for compositional vector semantics [1.4344589271451351]
本研究では、スパイクニューラルネットワークアーキテクチャ内で構成分布意味論を実装する方法を提案する。
また,ラベル付き画像を用いて単語表現を訓練する手法についても述べる。
論文 参考訳(メタデータ) (2024-01-10T22:12:34Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。