論文の概要: Emergence of Shared Sensory-motor Graphical Language from Visual Input
- arxiv url: http://arxiv.org/abs/2210.06468v1
- Date: Mon, 3 Oct 2022 17:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 15:54:50.790557
- Title: Emergence of Shared Sensory-motor Graphical Language from Visual Input
- Title(参考訳): 視覚入力による共有感覚運動型グラフィカル言語の創出
- Authors: Yoann Lemesle, Tristan Karch, Romain Laroche, Cl\'ement Moulin-Frier,
Pierre-Yves Oudeyer
- Abstract要約: 本稿では、話者が視覚的参照オブジェクトを名付けるために、グラフィカルな発話を生成しなければならないグラフィカル・リファレンシャル・ゲーム(GREG)を紹介した。
発声は、ダイナミックモータプリミティブとスケッチライブラリを組み合わせた描画画像である。
提案手法は,構成特性を持つ共有グラフィカル言語の出現を可能にする。
- 参考スコア(独自算出の注目度): 22.23299485364174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The framework of Language Games studies the emergence of languages in
populations of agents. Recent contributions relying on deep learning methods
focused on agents communicating via an idealized communication channel, where
utterances produced by a speaker are directly perceived by a listener. This
comes in contrast with human communication, which instead relies on a
sensory-motor channel, where motor commands produced by the speaker (e.g. vocal
or gestural articulators) result in sensory effects perceived by the listener
(e.g. audio or visual). Here, we investigate if agents can evolve a shared
language when they are equipped with a continuous sensory-motor system to
produce and perceive signs, e.g. drawings. To this end, we introduce the
Graphical Referential Game (GREG) where a speaker must produce a graphical
utterance to name a visual referent object consisting of combinations of MNIST
digits while a listener has to select the corresponding object among distractor
referents, given the produced message. The utterances are drawing images
produced using dynamical motor primitives combined with a sketching library. To
tackle GREG we present CURVES: a multimodal contrastive deep learning mechanism
that represents the energy (alignment) between named referents and utterances
generated through gradient ascent on the learned energy landscape. We, then,
present a set of experiments and metrics based on a systematic compositional
dataset to evaluate the resulting language. We show that our method allows the
emergence of a shared, graphical language with compositional properties.
- Abstract(参考訳): 言語ゲームの枠組みは、エージェントの集団における言語の発生を研究する。
近年,話者による発話が直接聞き手によって知覚される理想的なコミュニケーションチャネルを通じてコミュニケーションするエージェントに焦点をあてたディープラーニング手法に頼っている。
これは、人間のコミュニケーションとは対照的に、スピーカー(例えば、声道や声道)が発する運動コマンドが、聴取者(例えば、音声や視覚)によって知覚される感覚効果をもたらすような感覚運動チャネルに依存している。
本研究では,連続的な知覚運動システムを備えるエージェントが,例えば図面など,記号を生成・知覚するときに,共有言語を進化させることができるか検討する。
そこで,本研究では,話者がマニスト桁の組合せからなる視覚参照対象を名付けるためにグラフィカルな発話を生成し,リスナーがメッセージが与えられた場合,対応する対象を気晴らし対象の中から選択する必要があるグラフィカル参照ゲーム(greg)を紹介する。
発話は、動的モータープリミティブとスケッチライブラリを組み合わせることで生成された画像を描画する。
CURVES(CURVES:マルチモーダル・コントラスト型深層学習機構)は、学習エネルギーの景観に起因した勾配による発話と、名前付き参照と発話のエネルギー(アライメント)を表す。
そして、結果の言語を評価するために、体系的な構成データセットに基づく実験とメトリクスのセットを示す。
本手法により,合成特性を持つ共有グラフィカル言語が出現することを示す。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Emergent Graphical Conventions in a Visual Communication Game [80.79297387339614]
人間は象徴的な言語とは別にグラフィカルなスケッチと通信する。
視覚コミュニケーションゲームをする2つのニューラルエージェントを介して、このような進化過程をモデル化し、シミュレートする第一歩を踏み出す。
我々は,コミュニケーションと抽象的なグラフィカルな慣行を成功させるために,エージェントを共同で進化させる新しい強化学習手法を考案した。
論文 参考訳(メタデータ) (2021-11-28T18:59:57Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z) - Towards Graph Representation Learning in Emergent Communication [37.8523331078468]
我々は,マルチエージェントシステムにおける言語進化と協調を支援するために,グラフ畳み込みネットワークを利用する。
画像ベースの参照ゲームに動機づけられた,複雑度の異なるグラフ参照ゲームを提案する。
出現した通信プロトコルは堅牢であり、エージェントはゲームの変動の真の要因を明らかにし、トレーニング中に遭遇したサンプルを超えて一般化することを学ぶ。
論文 参考訳(メタデータ) (2020-01-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。