論文の概要: Language-Mediated, Object-Centric Representation Learning
- arxiv url: http://arxiv.org/abs/2012.15814v1
- Date: Thu, 31 Dec 2020 18:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:29:41.168762
- Title: Language-Mediated, Object-Centric Representation Learning
- Title(参考訳): 言語によるオブジェクト中心表現学習
- Authors: Ruocheng Wang, Jiayuan Mao, Samuel J. Gershman, Jiajun Wu
- Abstract要約: 我々はLORL(Language-mediated, Object-centric Representation Learning)を提案する。
LORLは、視覚と言語から乱れたオブジェクト中心のシーン表現を学習するためのパラダイムである。
言語に依存しない様々な教師なしセグメンテーションアルゴリズムと統合できます。
- 参考スコア(独自算出の注目度): 21.667413971464455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Language-mediated, Object-centric Representation Learning (LORL),
a paradigm for learning disentangled, object-centric scene representations from
vision and language. LORL builds upon recent advances in unsupervised object
segmentation, notably MONet and Slot Attention. While these algorithms learn an
object-centric representation just by reconstructing the input image, LORL
enables them to further learn to associate the learned representations to
concepts, i.e., words for object categories, properties, and spatial
relationships, from language input. These object-centric concepts derived from
language facilitate the learning of object-centric representations. LORL can be
integrated with various unsupervised segmentation algorithms that are
language-agnostic. Experiments show that the integration of LORL consistently
improves the object segmentation performance of MONet and Slot Attention on two
datasets via the help of language. We also show that concepts learned by LORL,
in conjunction with segmentation algorithms such as MONet, aid downstream tasks
such as referring expression comprehension.
- Abstract(参考訳): 本稿では,言語によるオブジェクト中心表現学習(LORL)を,視覚と言語から対象中心のシーン表現を学習するためのパラダイムとして提示する。
LORLは、教師なしオブジェクトセグメンテーション、特にMONetとSlot Attentionの最近の進歩の上に構築されている。
これらのアルゴリズムは、入力画像を再構成するだけでオブジェクト中心の表現を学習するが、LORLは学習した表現を概念、すなわち、言語入力からオブジェクトカテゴリ、プロパティ、空間関係の単語に関連付けることができる。
これらのオブジェクト指向の概念は、言語から派生したオブジェクト中心表現の学習を促進する。
LORLは言語に依存しない様々な教師なしセグメンテーションアルゴリズムと統合することができる。
実験により、LORLの統合は、言語を用いて2つのデータセット上のMONetとSlot Attentionのオブジェクトセグメンテーション性能を一貫して改善することが示された。
また,LORLが学習した概念は,MONetなどのセグメンテーションアルゴリズムとともに,表現理解の参照などの下流タスクを支援する。
関連論文リスト
- Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
本稿では,NSI(Neural Slot Interpreter)を提案する。
NSIはXMLに似たプログラミング言語で、単純な構文規則を使ってシーンのオブジェクトの意味をオブジェクト中心のプログラムプリミティブに整理する。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。