論文の概要: The Curious Case of Representational Alignment: Unravelling Visio-Linguistic Tasks in Emergent Communication
- arxiv url: http://arxiv.org/abs/2407.17960v1
- Date: Thu, 25 Jul 2024 11:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:18:40.975671
- Title: The Curious Case of Representational Alignment: Unravelling Visio-Linguistic Tasks in Emergent Communication
- Title(参考訳): 表現的アライメントの奇抜な事例--創発的コミュニケーションにおけるヴィシオ言語的課題の解明
- Authors: Tom Kouwenhoven, Max Peeperkorn, Bram van Dijk, Tessa Verhoef,
- Abstract要約: エージェント画像表現とエージェント表現と入力画像との表現アライメントを評価する。
我々は,構成性の共通指標である,エージェント間のアライメントと地形的類似性の強い関係を同定する。
本研究は,言語出現のシミュレーションにおいて,表現的アライメントが果たす重要な役割を強調した。
- 参考スコア(独自算出の注目度): 1.3499500088995464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language has the universal properties of being compositional and grounded in reality. The emergence of linguistic properties is often investigated through simulations of emergent communication in referential games. However, these experiments have yielded mixed results compared to similar experiments addressing linguistic properties of human language. Here we address representational alignment as a potential contributing factor to these results. Specifically, we assess the representational alignment between agent image representations and between agent representations and input images. Doing so, we confirm that the emergent language does not appear to encode human-like conceptual visual features, since agent image representations drift away from inputs whilst inter-agent alignment increases. We moreover identify a strong relationship between inter-agent alignment and topographic similarity, a common metric for compositionality, and address its consequences. To address these issues, we introduce an alignment penalty that prevents representational drift but interestingly does not improve performance on a compositional discrimination task. Together, our findings emphasise the key role representational alignment plays in simulations of language emergence.
- Abstract(参考訳): 自然言語は構成的であり、現実に根ざした普遍的な性質を持つ。
言語特性の出現は、しばしば参照ゲームにおける創発的コミュニケーションのシミュレーションを通して研究される。
しかし、これらの実験は、人間の言語の言語的特性に対処する同様の実験と比較して、混合の結果をもたらしている。
ここでは、表現的アライメントをこれらの結果に潜在的に寄与する要因として扱う。
具体的には、エージェント画像表現とエージェント表現と入力画像との表現アライメントを評価する。
エージェント画像表現は,エージェント間のアライメントが増大する一方,入力から遠ざかっているため,創発言語が人間の視覚的特徴をコード化していないことが確認された。
さらに, 歯間アライメントと地形的類似性, 構成性の共通指標との強い関係を同定し, その結果に対処する。
これらの問題に対処するために,表現的ドリフトを防止するアライメントペナルティを導入するが,興味深いことに,構成的識別タスクの性能は向上しない。
そこで本研究では,言語出現のシミュレーションにおいて,表現的アライメントが果たす重要な役割を強調した。
関連論文リスト
- Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning Multi-Object Positional Relationships via Emergent
Communication [16.26264889682904]
観測対象が2つの対象を含む参照ゲームにおいてエージェントを訓練し、位置関係が関与している場合、一般化が主要な問題であることを示す。
学習言語は,目標を位置関係で記述したマルチステップのMDPタスクにおいてうまく一般化でき,実画像や事前学習した画像機能よりも優れることがわかった。
また,参照ゲームからの言語移行は,このタスクで直接学習する言語よりも,新しいタスクにおいて優れており,参照ゲームにおける事前学習のメリットが示唆されている。
論文 参考訳(メタデータ) (2023-02-16T04:44:53Z) - Learning to Improve Representations by Communicating About Perspectives [0.0]
本稿では,多数のオートエンコーダからなるミニマルアーキテクチャを提案する。
提案したアーキテクチャは整列表現の出現を許容することを示す。
その結果、主観的パースペクティブからのコミュニケーションが、マルチエージェントシステムにおけるより抽象的な表現の獲得につながることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:30:13Z) - On (Emergent) Systematic Generalisation and Compositionality in Visual
Referential Games with Straight-Through Gumbel-Softmax Estimator [0.30458514384586394]
2人(またはそれ以上)のエージェントが非視覚的な参照ゲームを行うと、構成性のドライバが現れる。
本稿では,ST-GSの文脈において,これまでフィールドで認識されてきた構成性の要因がどの程度適用されているかを検討する。
st-gsアプローチを小さなバッチサイズとオーバーコンプリート通信チャネルで使用することで、新興言語のコンポジション性が向上する。
論文 参考訳(メタデータ) (2020-12-19T20:40:09Z) - The Geometry of Distributed Representations for Better Alignment,
Attenuated Bias, and Improved Interpretability [9.215513608145994]
単語、テキスト、画像、知識グラフなどの構造化データに対する高次元表現は、機械学習やデータマイニングで一般的に使用される。
これらの表現は解釈可能性の度合いが異なり、効率的な分散表現は次元マッピングへの特徴の喪失の犠牲となる。
その影響は、多くの表現やタスクで見られ、特に問題のあるものは、基礎となるデータから学習された社会的偏見が未知の次元や部分空間で捕捉され、隠蔽される言語表現である。
この研究は、これらの表現の透明性と解釈可能性に関連するこれらの問題に対処する。
論文 参考訳(メタデータ) (2020-11-25T01:04:11Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。