論文の概要: Grounded Language Acquisition From Object and Action Imagery
- arxiv url: http://arxiv.org/abs/2309.06335v1
- Date: Tue, 12 Sep 2023 15:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:11:22.890955
- Title: Grounded Language Acquisition From Object and Action Imagery
- Title(参考訳): 物体画像と行動画像からの接地言語獲得
- Authors: James Robert Kubricht and Zhaoyuan Yang and Jianwei Qiu and Peter
Henry Tu
- Abstract要約: 視覚データ表現のためのプライベート言語の開発について検討する。
物体認識には、実際の画像から人間の参加者が作成したスケッチのセットが用いられた。
動作認識のために3次元モーションキャプチャシステムから2次元軌跡が生成された。
- 参考スコア(独自算出の注目度): 1.5566524830295307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning approaches to natural language processing have made great
strides in recent years. While these models produce symbols that convey vast
amounts of diverse knowledge, it is unclear how such symbols are grounded in
data from the world. In this paper, we explore the development of a private
language for visual data representation by training emergent language (EL)
encoders/decoders in both i) a traditional referential game environment and ii)
a contrastive learning environment utilizing a within-class matching training
paradigm. An additional classification layer utilizing neural machine
translation and random forest classification was used to transform symbolic
representations (sequences of integer symbols) to class labels. These methods
were applied in two experiments focusing on object recognition and action
recognition. For object recognition, a set of sketches produced by human
participants from real imagery was used (Sketchy dataset) and for action
recognition, 2D trajectories were generated from 3D motion capture systems
(MOVI dataset). In order to interpret the symbols produced for data in each
experiment, gradient-weighted class activation mapping (Grad-CAM) methods were
used to identify pixel regions indicating semantic features which contribute
evidence towards symbols in learned languages. Additionally, a t-distributed
stochastic neighbor embedding (t-SNE) method was used to investigate embeddings
learned by CNN feature extractors.
- Abstract(参考訳): 自然言語処理への深層学習アプローチは近年大きな進歩を遂げている。
これらのモデルは、膨大な量の多様な知識を伝達するシンボルを生成するが、そのようなシンボルがどのように世界からのデータに根ざされているかは不明である。
本稿では,創発的言語(EL)エンコーダ/デコーダの訓練による視覚データ表現のためのプライベート言語の開発について検討する。
一 伝統的な参照ゲーム環境及び
二 クラス内マッチング学習パラダイムを利用したコントラスト学習環境。
ニューラルネットワーク翻訳とランダムフォレスト分類を利用した付加的な分類層を用いて,記号表現(整数記号列)をクラスラベルに変換する。
これらの手法を物体認識と行動認識に焦点を当てた2つの実験に応用した。
物体認識には,実画像から人間参加者が作成したスケッチセット(sketchy dataset)を用い,動作認識には3次元モーションキャプチャシステム(movi dataset)から2次元トラジェクタを生成する。
各実験で生成したシンボルを解析するために,勾配重み付きクラスアクティベーションマッピング(Grad-CAM)法を用いて,学習言語におけるシンボルに対する証拠となる意味的特徴を示す画素領域を同定した。
さらに,t-distributed stochastic neighbor embedded (t-sne) 法を用いてcnn特徴抽出器で学習した埋め込みについて検討した。
関連論文リスト
- On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition [62.997667081978825]
本稿では,表情認識における伝達学習のための生物学的メカニズムを提案する。
提案アーキテクチャでは,人間の脳が,頭部形状の異なる表情を自然に認識する方法について解説する。
本モデルでは, FERGデータセットの分類精度92.15%を極端に高いデータ効率で達成する。
論文 参考訳(メタデータ) (2023-04-05T09:06:30Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Leveraging Systematic Knowledge of 2D Transformations [6.668181653599057]
人間は、たとえ画像のシーンが珍しいとしても、画像を解釈する素晴らしい能力を持っている。
本研究は,1)2次元変換の体系的知識の獲得,2)画像分類タスクにおける学習知識を活用可能なアーキテクチャコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T06:46:12Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - A Transformer-Based Contrastive Learning Approach for Few-Shot Sign
Language Recognition [0.0]
本稿では,ボディキー点列からリッチな表現を学習するContrastive Transformerベースのモデルを提案する。
実験により、モデルは十分に一般化でき、トレーニングプロセスで見られない手話のクラスに対して、競争的な結果を得ることができた。
論文 参考訳(メタデータ) (2022-04-05T11:42:55Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。