論文の概要: Learning Multi-Object Positional Relationships via Emergent
Communication
- arxiv url: http://arxiv.org/abs/2302.08084v1
- Date: Thu, 16 Feb 2023 04:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:03:53.990791
- Title: Learning Multi-Object Positional Relationships via Emergent
Communication
- Title(参考訳): 創発的コミュニケーションによる多対象位置関係の学習
- Authors: Yicheng Feng, Boshi An, and Zongqing Lu
- Abstract要約: 観測対象が2つの対象を含む参照ゲームにおいてエージェントを訓練し、位置関係が関与している場合、一般化が主要な問題であることを示す。
学習言語は,目標を位置関係で記述したマルチステップのMDPタスクにおいてうまく一般化でき,実画像や事前学習した画像機能よりも優れることがわかった。
また,参照ゲームからの言語移行は,このタスクで直接学習する言語よりも,新しいタスクにおいて優れており,参照ゲームにおける事前学習のメリットが示唆されている。
- 参考スコア(独自算出の注目度): 16.26264889682904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of emergent communication has been dedicated to interactive
artificial intelligence. While existing work focuses on communication about
single objects or complex image scenes, we argue that communicating
relationships between multiple objects is important in more realistic tasks,
but understudied. In this paper, we try to fill this gap and focus on emergent
communication about positional relationships between two objects. We train
agents in the referential game where observations contain two objects, and find
that generalization is the major problem when the positional relationship is
involved. The key factor affecting the generalization ability of the emergent
language is the input variation between Speaker and Listener, which is realized
by a random image generator in our work. Further, we find that the learned
language can generalize well in a new multi-step MDP task where the positional
relationship describes the goal, and performs better than raw-pixel images as
well as pre-trained image features, verifying the strong generalization ability
of discrete sequences. We also show that language transfer from the referential
game performs better in the new task than learning language directly in this
task, implying the potential benefits of pre-training in referential games. All
in all, our experiments demonstrate the viability and merit of having agents
learn to communicate positional relationships between multiple objects through
emergent communication.
- Abstract(参考訳): 創発的コミュニケーションの研究は、インタラクティブ人工知能に特化している。
既存の作業は、単一のオブジェクトや複雑なイメージシーンに関するコミュニケーションに焦点を当てているが、より現実的なタスクでは、複数のオブジェクト間の関係性が重要だと論じている。
本稿では,このギャップを埋め,二つの物体間の位置関係に関する創発的コミュニケーションに焦点をあてる。
我々は,観察対象が2つあるレファレンシャルゲームにおいてエージェントを訓練し,位置関係が絡む場合,一般化が大きな問題であることを示す。
創発的言語の一般化能力に影響を与える重要な要因は,ランダム画像生成器によって実現される話者とリスナ間の入力変動である。
さらに、この学習言語は、位置関係が目的を記述した新しい多段階のMDPタスクにおいてうまく一般化でき、また、事前訓練された画像の特徴だけでなく、生画素画像よりも優れ、離散シーケンスの強い一般化能力を検証することができる。
また,本課題で直接学習するよりも,レファレンシャルゲームからの言語移動が新しいタスクでうまく機能することを示し,レファレンシャルゲームにおける事前学習の潜在的メリットを示唆する。
全体として,創発的コミュニケーションを通じてエージェントが複数のオブジェクト間の位置関係を学習する可能性とメリットを示す実験を行った。
関連論文リスト
- Learning Multi-Agent Communication with Contrastive Learning [3.816854668079928]
本稿では,コミュニケーション的メッセージが環境状態の異なる不完全なビューと見なされる,別の視点を紹介する。
送信したメッセージと受信したメッセージの関係を調べることで,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。
通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-03T23:51:05Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - The emergence of visual semantics through communication games [0.0]
ビジュアルセマンティクスをキャプチャする通信システムは、適切なタイプのゲームをすることで、完全に自己監督された方法で学習することができる。
我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。
論文 参考訳(メタデータ) (2021-01-25T17:43:37Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Internal and external pressures on language emergence: least effort,
object constancy and frequency [27.731900533634516]
過去の研究では、画像を特定するためにコミュニケーションが必要な参照ゲームにおいて、人工知能がほぼ完璧な精度を達成することが示されている。
この結果を回避するために,コミュニケーションに対する現実的な圧力源をいくつか提案する。
提案した圧力源は, 冗長性の低い新興言語, 高レベル概念情報, 一般化能力の向上に寄与することがわかった。
論文 参考訳(メタデータ) (2020-04-08T08:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。