論文の概要: Building a visual semantics aware object hierarchy
- arxiv url: http://arxiv.org/abs/2202.13021v1
- Date: Sat, 26 Feb 2022 00:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:45:01.790195
- Title: Building a visual semantics aware object hierarchy
- Title(参考訳): ビジュアルセマンティクスを意識したオブジェクト階層の構築
- Authors: Xiaolei Diao
- Abstract要約: 視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The semantic gap is defined as the difference between the linguistic
representations of the same concept, which usually leads to misunderstanding
between individuals with different knowledge backgrounds. Since linguistically
annotated images are extensively used for training machine learning models,
semantic gap problem (SGP) also results in inevitable bias on image annotations
and further leads to poor performance on current computer vision tasks. To
address this problem, we propose a novel unsupervised method to build visual
semantics aware object hierarchy, aiming to get a classification model by
learning from pure-visual information and to dissipate the bias of linguistic
representations caused by SGP. Our intuition in this paper comes from
real-world knowledge representation where concepts are hierarchically
organized, and each concept can be described by a set of features rather than a
linguistic annotation, namely visual semantic. The evaluation consists of two
parts, firstly we apply the constructed hierarchy on the object recognition
task and then we compare our visual hierarchy and existing lexical hierarchies
to show the validity of our method. The preliminary results reveal the
efficiency and potential of our proposed method.
- Abstract(参考訳): 意味的ギャップは、同じ概念の言語的表現の違いとして定義され、通常は異なる知識の背景を持つ個人間の誤解につながる。
言語的にアノテートされた画像は機械学習モデルのトレーニングに広く使われているため、セマンティックギャップ問題(sgp)もまた画像アノテーションに不可避なバイアスをもたらし、現在のコンピュータビジョンタスクのパフォーマンスを低下させる。
そこで本研究では,純粋視覚情報から学習し,SGPによる言語表現のバイアスを解消することを目的とした,視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に構成され、それぞれの概念が言語的アノテーション、すなわち視覚的意味論ではなく、特徴の集合によって記述できる実世界の知識表現から来ている。
評価は2つの部分から構成されており、まず、構築された階層をオブジェクト認識タスクに適用し、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
予備結果は,提案手法の効率と可能性を明らかにする。
関連論文リスト
- Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Describe me an Aucklet: Generating Grounded Perceptual Category
Descriptions [2.7195102129095003]
マルチモーダル言語モデルにおいて,カテゴリレベルの知覚的グラウンド化をテストするためのフレームワークを提案する。
我々は、視覚カテゴリーの記述を生成し解釈するために、別々のニューラルネットワークを訓練する。
コミュニケーションの成功が生成モデルの性能問題を露呈することを示します。
論文 参考訳(メタデータ) (2023-03-07T17:01:25Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Cross-Modal Alignment Learning of Vision-Language Conceptual Systems [24.423011687551433]
幼児の単語学習メカニズムに触発された視覚言語概念体系を学習する手法を提案する。
提案モデルでは、視覚オブジェクトと単語の関連性をオンラインで学習し、徐々に相互関係グラフネットワークを構築している。
論文 参考訳(メタデータ) (2022-07-31T08:39:53Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。