論文の概要: Pretraining on Interactions for Learning Grounded Affordance
Representations
- arxiv url: http://arxiv.org/abs/2207.02272v1
- Date: Tue, 5 Jul 2022 19:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 06:31:46.763944
- Title: Pretraining on Interactions for Learning Grounded Affordance
Representations
- Title(参考訳): 地価表現学習のためのインタラクションの事前学習
- Authors: Jack Merullo, Dylan Ebert, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: 我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
- 参考スコア(独自算出の注目度): 22.290431852705662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexical semantics and cognitive science point to affordances (i.e. the
actions that objects support) as critical for understanding and representing
nouns and verbs. However, study of these semantic features has not yet been
integrated with the "foundation" models that currently dominate language
representation research. We hypothesize that predictive modeling of object
state over time will result in representations that encode object affordance
information "for free". We train a neural network to predict objects'
trajectories in a simulated interaction and show that our network's latent
representations differentiate between both observed and unobserved affordances.
We find that models trained using 3D simulations from our SPATIAL dataset
outperform conventional 2D computer vision models trained on a similar task,
and, on initial inspection, that differences between concepts correspond to
expected features (e.g., roll entails rotation). Our results suggest a way in
which modern deep learning approaches to grounded language learning can be
integrated with traditional formal semantic notions of lexical representations.
- Abstract(参考訳): 語彙的意味論と認知科学は、名詞や動詞の理解と表現に欠かせないもの(すなわち、対象が支持する行動)を指す。
しかし、これらの意味的特徴の研究は、現在言語表現研究を支配している「基礎」モデルとはまだ統合されていない。
我々は、オブジェクトの状態の予測モデリングが、オブジェクトの許容情報を「無料で」エンコードする表現をもたらすと仮定する。
シミュレーションによって物体の軌跡を予測するためにニューラルネットワークを訓練し、ネットワークの潜在表現が観測値と観測値の両方で区別されることを示す。
SPATIALデータセットから3次元シミュレーションを用いて訓練されたモデルは、類似したタスクで訓練された従来の2次元コンピュータビジョンモデルより優れており、初期検査では、概念間の差異が期待される特徴(例えば、ロールエンコレーション)に対応することが判明した。
以上の結果から,現代的深層学習が語彙表現の形式的意味概念と統合できる可能性が示唆された。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。