論文の概要: Know your audience: specializing grounded language models with the game
of Dixit
- arxiv url: http://arxiv.org/abs/2206.08349v1
- Date: Thu, 16 Jun 2022 17:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 13:29:06.749280
- Title: Know your audience: specializing grounded language models with the game
of Dixit
- Title(参考訳): 聴衆を知る:dixitのゲームで接頭辞言語モデルを専門にする
- Authors: Aaditya K. Singh, David Ding, Andrew Saxe, Felix Hill, Andrew K.
Lampinen
- Abstract要約: マルチエージェント画像参照ゲームとしてDixitのラウンドを定式化する。
話者は様々な聴取者の同調的強みや弱みに応じて適応できることを示す。
我々の実験は、複雑なマルチパートナー設定における適応通信へのステップを提供する。
- 参考スコア(独自算出の注目度): 20.857795779760917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective communication requires adapting to the idiosyncratic common ground
shared with each communicative partner. We study a particularly challenging
instantiation of this problem: the popular game Dixit. We formulate a round of
Dixit as a multi-agent image reference game where a (trained) speaker model is
rewarded for describing a target image such that one (pretrained) listener
model can correctly identify it from a pool of distractors, but another
listener cannot. To adapt to this setting, the speaker must exploit differences
in the common ground it shares with the different listeners. We show that
finetuning an attention-based adapter between a CLIP vision encoder and a large
language model in this contrastive, multi-agent setting gives rise to
context-dependent natural language specialization from rewards only, without
direct supervision. In a series of controlled experiments, we show that the
speaker can adapt according to the idiosyncratic strengths and weaknesses of
various pairs of different listeners. Furthermore, we show zero-shot transfer
of the speaker's specialization to unseen real-world data. Our experiments
offer a step towards adaptive communication in complex multi-partner settings
and highlight the interesting research challenges posed by games like Dixit. We
hope that our work will inspire creative new approaches to adapting pretrained
models.
- Abstract(参考訳): 効果的なコミュニケーションには、各コミュニケーションパートナーと共有される慣用的な共通基盤に適応する必要がある。
我々は、この問題の特に困難なインスタンス化、すなわち人気のゲームDixitについて研究する。
我々は、ディクシットのラウンドをマルチエージェント画像参照ゲームとして定式化し、ターゲット画像を記述するために(訓練された)話者モデルに報酬を与える。
この設定に適応するために、話者は異なるリスナーと共有する共通点の違いを生かさなければならない。
クリップビジョンエンコーダと大規模言語モデル間の注意に基づくアダプタの微調整は,この対照的なマルチエージェント設定は,直接の監督なしに,報酬のみからコンテキスト依存の自然言語を特殊化する。
制御された一連の実験において、話者は様々な聴取者の同調的強みと弱みに応じて適応できることを示す。
さらに,話者の特殊化を実世界データにゼロショット転送することを示す。
我々の実験は、複雑なマルチパートナー環境での適応通信へのステップを提供し、Dxitのようなゲームがもたらす興味深い研究課題を強調します。
私たちの仕事が、トレーニング済みのモデルに適応するための創造的な新しいアプローチに刺激されることを願っています。
関連論文リスト
- Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文 参考訳(メタデータ) (2022-06-07T09:28:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。
直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文 参考訳(メタデータ) (2020-10-10T02:09:19Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。