論文の概要: Know your audience: specializing grounded language models with listener
subtraction
- arxiv url: http://arxiv.org/abs/2206.08349v2
- Date: Mon, 1 May 2023 20:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 18:15:13.944120
- Title: Know your audience: specializing grounded language models with listener
subtraction
- Title(参考訳): オーディエンスを知る:リスナーサブトラクションを備えた基底言語モデルに特化した
- Authors: Aaditya K. Singh, David Ding, Andrew Saxe, Felix Hill, Andrew K.
Lampinen
- Abstract要約: 我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
- 参考スコア(独自算出の注目度): 20.857795779760917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective communication requires adapting to the idiosyncrasies of each
communicative context--such as the common ground shared with each partner.
Humans demonstrate this ability to specialize to their audience in many
contexts, such as the popular game Dixit. We take inspiration from Dixit to
formulate a multi-agent image reference game where a (trained) speaker model is
rewarded for describing a target image such that one (pretrained) listener
model can correctly identify it among distractors, but another listener cannot.
To adapt, the speaker must exploit differences in the knowledge it shares with
the different listeners. We show that finetuning an attention-based adapter
between a CLIP vision encoder and a large language model in this contrastive,
multi-agent setting gives rise to context-dependent natural language
specialization from rewards only, without direct supervision. Through
controlled experiments, we show that training a speaker with two listeners that
perceive differently, using our method, allows the speaker to adapt to the
idiosyncracies of the listeners. Furthermore, we show zero-shot transfer of the
specialization to real-world data. Our experiments demonstrate a method for
specializing grounded language models without direct supervision and highlight
the interesting research challenges posed by complex multi-agent communication.
- Abstract(参考訳): 効果的なコミュニケーションには、各パートナーが共有する共通基盤など、各コミュニケーションコンテキストの慣用性に適応する必要がある。
人間は、人気のあるゲーム「ディクシット」など、多くの文脈で観客に専門化する能力を示す。
我々は、dixitからインスピレーションを得て、(訓練済み)話者モデルがターゲット画像を記述する際に(訓練済み)話者モデルが報われるマルチエージェント画像参照ゲームを定式化する。
適応するために、話者は異なるリスナーと共有する知識の違いを活用しなければならない。
クリップビジョンエンコーダと大規模言語モデル間の注意に基づくアダプタの微調整は,この対照的なマルチエージェント設定は,直接の監督なしに,報酬のみからコンテキスト依存の自然言語を特殊化する。
制御実験により,2つのリスナーで異なる認識の話者を訓練し,提案手法を用いることで,話者がリスナーの慣用性に適応できることを示す。
さらに,実世界データへの特殊化のゼロショット転送を示す。
本実験では, 複雑なマルチエージェント通信によって生じる興味深い研究課題を, 直接監督することなく, 基礎言語モデルを専門化する手法を実証する。
関連論文リスト
- Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文 参考訳(メタデータ) (2022-06-07T09:28:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。
直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文 参考訳(メタデータ) (2020-10-10T02:09:19Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。