論文の概要: "LazImpa": Lazy and Impatient neural agents learn to communicate
efficiently
- arxiv url: http://arxiv.org/abs/2010.01878v1
- Date: Mon, 5 Oct 2020 09:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:31:14.072584
- Title: "LazImpa": Lazy and Impatient neural agents learn to communicate
efficiently
- Title(参考訳): ラズイムパ(LazImpa) : ラズイムパとイミュータブル・ニューラルエージェントが効率よくコミュニケーションを学ぶ
- Authors: Mathieu Rita, Rahma Chaabouni, Emmanuel Dupoux
- Abstract要約: ほぼ最適かつZLA互換なメッセージが現れるが、話者とリスナーの両方が修正される場合のみである。
そこで我々は,話者を遅延させる新しいコミュニケーションシステム「LazImpa」を導入する。
- 参考スコア(独自算出の注目度): 18.194760270143593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has shown that artificial neural agents naturally develop
surprisingly non-efficient codes. This is illustrated by the fact that in a
referential game involving a speaker and a listener neural networks optimizing
accurate transmission over a discrete channel, the emergent messages fail to
achieve an optimal length. Furthermore, frequent messages tend to be longer
than infrequent ones, a pattern contrary to the Zipf Law of Abbreviation (ZLA)
observed in all natural languages. Here, we show that near-optimal and
ZLA-compatible messages can emerge, but only if both the speaker and the
listener are modified. We hence introduce a new communication system,
"LazImpa", where the speaker is made increasingly lazy, i.e. avoids long
messages, and the listener impatient, i.e.,~seeks to guess the intended content
as soon as possible.
- Abstract(参考訳): これまでの研究によると、人工神経エージェントは驚くほど非効率なコードを自然に開発していた。
これは、話者とリスナーニューラルネットワークが介在する参照ゲームにおいて、離散チャネル上の正確な送信を最適化する場合、創発メッセージは最適な長さを達成できないという事実によって説明される。
さらに、頻繁なメッセージは、すべての自然言語で見られるZipf Law of Abbreviation(ZLA)に反するパターンである、頻度の低いメッセージよりも長い傾向にある。
ここでは、話者とリスナーの両方が修正された場合にのみ、ほぼ最適かつZLA互換なメッセージが現れることを示す。
そこで我々は,「LazImpa」という新たなコミュニケーションシステムを導入し,話者の怠慢化,長文の回避,聴取者の不快感,即ち意図した内容の推測をできるだけ早く行う。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - OverFlow: Putting flows on top of neural transducers for better TTS [9.346907121576258]
ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。
本稿では,ニューラルHMM TTSと正規化流を組み合わせた音声音響の非ガウス分布を記述する。
論文 参考訳(メタデータ) (2022-11-13T12:53:05Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Towards Learning to Speak and Hear Through Multi-Agent Communication
over a Continuous Acoustic Channel [21.503787009047677]
私たちは、継続的なコミュニケーションチャネルでエージェント間の緊急言語を観察できますか?
本稿では,話者エージェントが雑音の多い音響チャンネル上でリスナーに属性のセットを伝達する必要があるメッセージング環境を提案する。
DQN を用いてエージェントを訓練すると,(1) 個別の場合とは異なり,音響話者はリスナーのコヒーレンシー向上のために冗長性を学習し,(2) ノイズチャネル上の伝達誤差を暗黙的に補償する,より構成的な通信プロトコルを開発し,(3) DQN はREINFORCE を用いて最適化された手法と比較して,顕著な性能向上と構成性の向上を示した。
論文 参考訳(メタデータ) (2021-11-04T12:44:18Z) - Calibrate your listeners! Robust communication-based training for
pragmatic speakers [30.731870275051957]
本稿では,ニューラルリスナーの集団を用いた話者訓練の正規化手法を提案する。
言語ドリフトはニューラルリスナーの不確実性校正に起因していることを示す。
参照ゲームにおいて,両話者の目的を評価した結果,キャリブレーションを向上したアンサンブル方式により,話者が実用的な発話を生成できることが確認された。
論文 参考訳(メタデータ) (2021-10-11T17:07:38Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。