論文の概要: Learning Object Semantic Similarity with Self-Supervision
- arxiv url: http://arxiv.org/abs/2405.05143v1
- Date: Fri, 19 Apr 2024 14:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 15:40:48.824383
- Title: Learning Object Semantic Similarity with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるオブジェクトセマンティック類似性の学習
- Authors: Arthur Aubret, Timothy Schaumlöffel, Gemma Roig, Jochen Triesch,
- Abstract要約: 人間はその意味的関連性に基づいて2つのオブジェクトの類似性を判断する。
オブジェクトとカテゴリ間の意味的関係について、人間がどのように学ぶかは、まだ不明である。
- 参考スコア(独自算出の注目度): 7.473473243713322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans judge the similarity of two objects not just based on their visual appearance but also based on their semantic relatedness. However, it remains unclear how humans learn about semantic relationships between objects and categories. One important source of semantic knowledge is that semantically related objects frequently co-occur in the same context. For instance, forks and plates are perceived as similar, at least in part, because they are often experienced together in a ``kitchen" or ``eating'' context. Here, we investigate whether a bio-inspired learning principle exploiting such co-occurrence statistics suffices to learn a semantically structured object representation {\em de novo} from raw visual or combined visual and linguistic input. To this end, we simulate temporal sequences of visual experience by binding together short video clips of real-world scenes showing objects in different contexts. A bio-inspired neural network model aligns close-in-time visual representations while also aligning visual and category label representations to simulate visuo-language alignment. Our results show that our model clusters object representations based on their context, e.g. kitchen or bedroom, in particular in high-level layers of the network, akin to humans. In contrast, lower-level layers tend to better reflect object identity or category. To achieve this, the model exploits two distinct strategies: the visuo-language alignment ensures that different objects of the same category are represented similarly, whereas the temporal alignment leverages that objects from the same context are frequently seen in succession to make their representations more similar. Overall, our work suggests temporal and visuo-language alignment as plausible computational principles for explaining the origins of certain forms of semantic knowledge in humans.
- Abstract(参考訳): 人間は、視覚的な外観だけでなく、意味的関連性にもとづいて2つの物体の類似性を判断する。
しかしながら、人間がオブジェクトとカテゴリ間の意味的関係についてどのように学ぶかは、まだ不明である。
意味的知識の重要な情報源の1つは、意味的関連オブジェクトがしばしば同じ文脈で共起することである。
例えば、フォークとプレートは、少なくとも部分的には、"kitchen" や ``eating'' の文脈で一緒に経験されているため、類似していると見なされる。
本稿では,このような共起統計を利用したバイオインスピレーション学習の原理が,視覚的あるいは複合的な視覚的・言語的入力から意味的に構造化された対象表現を学習するのに十分かどうかを検討する。
この目的のために,現実のシーンの短いビデオクリップを結合することで,視覚体験の時間的シーケンスをシミュレートする。
バイオインスパイアされたニューラルネットワークモデルは、ビジュオ言語アライメントをシミュレートするために、ビジュアルとカテゴリのラベル表現をアライメントしながら、クローズインタイムの視覚表現をアライメントする。
以上の結果から,我々のモデルクラスタオブジェクトは,特にネットワークの高層層において,そのコンテキスト,例えばキッチンや寝室に基づいて表現されていることがわかった。
対照的に、低レベルのレイヤはオブジェクトのアイデンティティやカテゴリをよりよく反映する傾向があります。
これを達成するために、モデルは2つの異なる戦略を利用する: ビジュオ言語アライメントは、同じカテゴリの異なるオブジェクトが同じように表現されることを保証するが、テンポラルアライメントは、同じコンテキストからのオブジェクトが連続して見られることを利用して、それらの表現をより類似させる。
全体として、人間の意味的知識の特定の形態の起源を説明する上で、時間的およびビジュオ言語アライメントが妥当な計算原理であることを示唆している。
関連論文リスト
- Addressing Discrepancies in Semantic and Visual Alignment in Neural
Networks [0.0]
我々は、意味的に類似するクラスが視覚的に異なっていたり、非類似クラスの間に視覚的類似性が存在する場合の問題を考察する。
本稿では,意味論的に類似したクラスと任意の(視覚的でない)意味的関係をよりよく整合させる目的で,データ拡張手法を提案する。
その結果,提案手法を用いると,意味的に類似したクラス同士のアライメントが増加することがわかった。
論文 参考訳(メタデータ) (2023-06-01T21:03:06Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Human Correspondence Consensus for 3D Object Semantic Understanding [56.34297279246823]
本稿では,CorresPondenceNetという新しいデータセットを提案する。
このデータセットに基づいて、新しい測地的整合性損失を伴う密接なセマンティック埋め込みを学習することができる。
CorresPondenceNetは異種オブジェクトの細粒度理解を促進できるだけでなく、クロスオブジェクト登録や部分オブジェクトマッチングも実現できた。
論文 参考訳(メタデータ) (2019-12-29T04:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。