論文の概要: Aligning Visual and Lexical Semantics
- arxiv url: http://arxiv.org/abs/2212.06629v1
- Date: Tue, 13 Dec 2022 15:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:34:24.697124
- Title: Aligning Visual and Lexical Semantics
- Title(参考訳): 視覚と語彙のセマンティクスの調整
- Authors: Fausto Giunchiglia, Mayukh Bagchi and Xiaolei Diao
- Abstract要約: 本稿では,コンピュータビジョン(CV)システムに関連する2種類の意味論について論じる。
本稿では,視覚的意味論と語彙的意味論の整合性を実現するための,ドメインに依存しない一般的な手法を提案する。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We discuss two kinds of semantics relevant to Computer Vision (CV) systems -
Visual Semantics and Lexical Semantics. While visual semantics focus on how
humans build concepts when using vision to perceive a target reality, lexical
semantics focus on how humans build concepts of the same target reality through
the use of language. The lack of coincidence between visual and lexical
semantics, in turn, has a major impact on CV systems in the form of the
Semantic Gap Problem (SGP). The paper, while extensively exemplifying the lack
of coincidence as above, introduces a general, domain-agnostic methodology to
enforce alignment between visual and lexical semantics.
- Abstract(参考訳): コンピュータビジョン(cv)システムの視覚意味論と語彙意味論に関連する2種類の意味論について考察する。
視覚的意味論は、視覚を用いて対象の現実を知覚するときに、人間がどのように概念を構築するかに焦点を当てる一方で、語彙的意味論は、言語を用いて、人間が同じターゲットの現実の概念を構築する方法に焦点を当てる。
視覚的意味論と語彙的意味論の一致の欠如は、セマンティックギャップ問題(SGP)の形でCVシステムに大きな影響を与えている。
この論文は、上記のような偶然の欠如を広く例示する一方で、視覚的意味論と語彙的意味論の整合を強制する一般的なドメインに依存しない方法論を導入している。
関連論文リスト
- Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Augmenting Vision Language Pretraining by Learning Codebook with Visual
Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。
次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。
実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-31T17:36:09Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。