論文の概要: On (Emergent) Systematic Generalisation and Compositionality in Visual
Referential Games with Straight-Through Gumbel-Softmax Estimator
- arxiv url: http://arxiv.org/abs/2012.10776v1
- Date: Sat, 19 Dec 2020 20:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:18:10.798904
- Title: On (Emergent) Systematic Generalisation and Compositionality in Visual
Referential Games with Straight-Through Gumbel-Softmax Estimator
- Title(参考訳): ストレートスルーガムベル・ソフトマックス推定器を用いた視覚参照ゲームにおける体系的一般化と構成性について
- Authors: Kevin Denamgana\"i and James Alfred Walker
- Abstract要約: 2人(またはそれ以上)のエージェントが非視覚的な参照ゲームを行うと、構成性のドライバが現れる。
本稿では,ST-GSの文脈において,これまでフィールドで認識されてきた構成性の要因がどの程度適用されているかを検討する。
st-gsアプローチを小さなバッチサイズとオーバーコンプリート通信チャネルで使用することで、新興言語のコンポジション性が向上する。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The drivers of compositionality in artificial languages that emerge when two
(or more) agents play a non-visual referential game has been previously
investigated using approaches based on the REINFORCE algorithm and the (Neural)
Iterated Learning Model. Following the more recent introduction of the
\textit{Straight-Through Gumbel-Softmax} (ST-GS) approach, this paper
investigates to what extent the drivers of compositionality identified so far
in the field apply in the ST-GS context and to what extent do they translate
into (emergent) systematic generalisation abilities, when playing a visual
referential game. Compositionality and the generalisation abilities of the
emergent languages are assessed using topographic similarity and zero-shot
compositional tests. Firstly, we provide evidence that the test-train split
strategy significantly impacts the zero-shot compositional tests when dealing
with visual stimuli, whilst it does not when dealing with symbolic ones.
Secondly, empirical evidence shows that using the ST-GS approach with small
batch sizes and an overcomplete communication channel improves compositionality
in the emerging languages. Nevertheless, while shown robust with symbolic
stimuli, the effect of the batch size is not so clear-cut when dealing with
visual stimuli. Our results also show that not all overcomplete communication
channels are created equal. Indeed, while increasing the maximum sentence
length is found to be beneficial to further both compositionality and
generalisation abilities, increasing the vocabulary size is found detrimental.
Finally, a lack of correlation between the language compositionality at
training-time and the agents' generalisation abilities is observed in the
context of discriminative referential games with visual stimuli. This is
similar to previous observations in the field using the generative variant with
symbolic stimuli.
- Abstract(参考訳): 2つの(またはそれ以上の)エージェントが非視覚的な参照ゲームを行うときに現れる人工言語における構成性のドライバは、強化アルゴリズムと(神経)反復学習モデルに基づくアプローチを用いて以前に研究されてきた。
より最近の textit{Straight-Through Gumbel-Softmax} (ST-GS) アプローチの導入に続いて,本研究では,ST-GS の文脈において,これまでフィールドで認識されていた構成性の要因がどの程度適用され,また,視覚的参照ゲームにおいて,それらが体系的一般化能力(創発的)にどの程度変換されるかを検討する。
地形類似性とゼロショット合成テストを用いて,創発言語の構成性と一般化能力を評価する。
第一に,テストトレイン分割戦略が視覚刺激の処理においてゼロショット構成テストに大きく影響することを示す一方で,シンボル刺激の処理では影響しないことを示す。
第2に,st-gsアプローチをバッチサイズとオーバーコンプリート通信チャネルで使用すると,新興言語のコンポジション性が向上することを示す実証的証拠がある。
それにもかかわらず、視覚的な刺激を扱う場合、バッチサイズの影響はそれほど明確ではない。
また,全通信チャネルが等しく作成されるわけではないことを示した。
実際、最大文長の増大は、合成能力と一般化能力の両方に有益であるが、語彙サイズの増加は有害である。
最後に,視覚刺激を伴う識別的参照ゲームにおいて,学習時の言語構成性とエージェントの一般化能力の相関性の欠如が観察された。
これは、シンボリック刺激を伴う生成変異体を用いたフィールドでの以前の観測と似ている。
関連論文リスト
- Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - The Curious Case of Representational Alignment: Unravelling Visio-Linguistic Tasks in Emergent Communication [1.3499500088995464]
エージェント画像表現とエージェント表現と入力画像との表現アライメントを評価する。
我々は,構成性の共通指標である,エージェント間のアライメントと地形的類似性の強い関係を同定する。
本研究は,言語出現のシミュレーションにおいて,表現的アライメントが果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-07-25T11:29:27Z) - Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。
我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。
本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2023-05-26T21:10:11Z) - Visual Referential Games Further the Emergence of Disentangled
Representations [0.12891210250935145]
本稿では,新興言語のレベルにおける構成性,学習された表現のレベルにおける絡み合い,そして視覚的参照ゲームの文脈における体系性が相互に関連しているかを検討する。
論文 参考訳(メタデータ) (2023-04-27T20:00:51Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Transition-based Abstract Meaning Representation Parsing with Contextual
Embeddings [0.0]
本研究では,意味解析のタスクにおいて,言語モデルと記号意味論の定式化という,言語の意味への最も成功したルートを2つ組み合わせる手法について検討する。
本稿では,事前学習した文脈認識単語の埋め込み(BERTやRoBERTaなど)を解析問題に組み込むことの有用性について検討する。
論文 参考訳(メタデータ) (2022-06-13T15:05:24Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。