論文の概要: The emergence of visual semantics through communication games
- arxiv url: http://arxiv.org/abs/2101.10253v1
- Date: Mon, 25 Jan 2021 17:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 01:50:13.117504
- Title: The emergence of visual semantics through communication games
- Title(参考訳): コミュニケーションゲームによる視覚的意味論の出現
- Authors: Daniela Mihai and Jonathon Hare
- Abstract要約: ビジュアルセマンティクスをキャプチャする通信システムは、適切なタイプのゲームをすることで、完全に自己監督された方法で学習することができる。
我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of communication systems between agents which learn to play
referential signalling games with realistic images has attracted a lot of
attention recently. The majority of work has focused on using fixed, pretrained
image feature extraction networks which potentially bias the information the
agents learn to communicate. In this work, we consider a signalling game
setting in which a `sender' agent must communicate the information about an
image to a `receiver' who must select the correct image from many distractors.
We investigate the effect of the feature extractor's weights and of the task
being solved on the visual semantics learned by the models. We first
demonstrate to what extent the use of pretrained feature extraction networks
inductively bias the visual semantics conveyed by emergent communication
channel and quantify the visual semantics that are induced.
We then go on to explore ways in which inductive biases can be introduced to
encourage the emergence of semantically meaningful communication without the
need for any form of supervised pretraining of the visual feature extractor. We
impose various augmentations to the input images and additional tasks in the
game with the aim to induce visual representations which capture conceptual
properties of images. Through our experiments, we demonstrate that
communication systems which capture visual semantics can be learned in a
completely self-supervised manner by playing the right types of game. Our work
bridges a gap between emergent communication research and self-supervised
feature learning.
- Abstract(参考訳): 近年,レファレンスシグナリングゲームをリアルイメージでプレイすることを学ぶエージェント間のコミュニケーションシステムの出現が注目されている。
作業の大部分は、エージェントが通信を学習する情報をバイアスする可能性のある、固定された事前訓練された画像特徴抽出ネットワークの使用に重点を置いている。
本研究では,'sender'エージェントが画像に関する情報を'receiver'に伝達し,多数の邪魔者から正しい画像を選択しなければならないシグナリングゲームの設定について検討する。
特徴抽出器の重みと課題がモデルによって学習された視覚的意味論に与える影響を検討する。
まず,事前学習された特徴抽出ネットワークの利用が,創発的コミュニケーションチャネルによって伝達される視覚意味論を誘導的にバイアスし,誘発される視覚意味論を定量化することを示す。
次に,視覚特徴抽出器の教師付き事前学習を必要とせず,意味的に意味のあるコミュニケーションの出現を促すために,帰納的バイアスを導入する方法について検討する。
画像の概念特性をキャプチャする視覚的表現を誘導する目的で,入力画像とゲーム内の追加タスクに様々な拡張を課す。
実験により,視覚的意味論を捉えたコミュニケーションシステムは,適切なタイプのゲームをプレイすることで,完全に自己指導的に学習できることが実証された。
我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。
関連論文リスト
- Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Learning Multi-Object Positional Relationships via Emergent
Communication [16.26264889682904]
観測対象が2つの対象を含む参照ゲームにおいてエージェントを訓練し、位置関係が関与している場合、一般化が主要な問題であることを示す。
学習言語は,目標を位置関係で記述したマルチステップのMDPタスクにおいてうまく一般化でき,実画像や事前学習した画像機能よりも優れることがわかった。
また,参照ゲームからの言語移行は,このタスクで直接学習する言語よりも,新しいタスクにおいて優れており,参照ゲームにおける事前学習のメリットが示唆されている。
論文 参考訳(メタデータ) (2023-02-16T04:44:53Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Shared Visual Representations of Drawing for Communication: How do
different biases affect human interpretability and intent? [0.0]
学習済みの強力なエンコーダネットワークと適切な帰納バイアスの組み合わせは、認識可能なスケッチを描くエージェントに繋がることを示す。
スケッチによって伝達される意味的内容を自動的に分析する手法を開発した。
論文 参考訳(メタデータ) (2021-10-15T17:02:34Z) - Interpretable agent communication from scratch(with a generic visual
processor emerging on the side) [29.722833768572805]
我々は、2つのディープネットをスクラッチからトレーニングし、教師なし緊急通信を通じて現実的な参照識別を行う。
ほぼ解釈可能な創発的プロトコルにより、トレーニング時に見なかったオブジェクトタイプであっても、ネットがうまく通信できることが示される。
以上の結果から,従来考えられていたよりも現実的な状況下での(解釈可能な)深層ネット通信の実現可能性に関する具体的な証拠が得られた。
論文 参考訳(メタデータ) (2021-06-08T11:32:11Z) - Learning to Draw: Emergent Communication through Sketching [0.0]
タスクを協調的に解決するために,エージェントがコミュニケーションを学ぶ方法を示す。
既存の研究は言語に重点を置いており、エージェント間で個別のトークンのシーケンスを学習された通信チャネルで送信している。
我々のエージェントはディープニューラルネットワークによってパラメータ化されており、描画手順は微分可能であり、エンドツーエンドのトレーニングを可能にします。
参照型コミュニケーションゲームの枠組みでは,エージェントが図面によるコミュニケーションをうまく学べるだけでなく,適切な帰納的バイアスを伴って,人間が解釈できる方法で行うことができることを示す。
論文 参考訳(メタデータ) (2021-06-03T18:17:55Z) - Exploring Visual Engagement Signals for Representation Learning [56.962033268934015]
VisEは、クラスタ化されたエンゲージメント信号から派生した擬似ラベルにソーシャルイメージをマップする弱い教師付き学習アプローチである。
この方法でトレーニングされたモデルが、感情認識や政治的バイアス検出といった主観的なコンピュータビジョンタスクにどのように役立つかを研究する。
論文 参考訳(メタデータ) (2021-04-15T20:50:40Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。