論文の概要: Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text
- arxiv url: http://arxiv.org/abs/2112.00800v1
- Date: Wed, 1 Dec 2021 19:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 10:48:38.925154
- Title: Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text
- Title(参考訳): Iconary: 描画とテキストによるマルチモーダルコミュニケーションをテストするピクショナリーベースのゲーム
- Authors: Christopher Clark, Jordi Salvador, Dustin Schwenk, Derrick Bonafilia,
Mark Yatskar, Eric Kolve, Alvaro Herrasti, Jonghyun Choi, Sachin Mehta, Sam
Skjonsberg, Carissa Schoenick, Aaron Sarnat, Hannaneh Hajishirzi, Aniruddha
Kembhavi, Oren Etzioni, Ali Farhadi
- Abstract要約: 人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
- 参考スコア(独自算出の注目度): 70.14613727284741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communicating with humans is challenging for AIs because it requires a shared
understanding of the world, complex semantics (e.g., metaphors or analogies),
and at times multi-modal gestures (e.g., pointing with a finger, or an arrow in
a diagram). We investigate these challenges in the context of Iconary, a
collaborative game of drawing and guessing based on Pictionary, that poses a
novel challenge for the research community. In Iconary, a Guesser tries to
identify a phrase that a Drawer is drawing by composing icons, and the Drawer
iteratively revises the drawing to help the Guesser in response. This
back-and-forth often uses canonical scenes, visual metaphor, or icon
compositions to express challenging words, making it an ideal test for mixing
language and visual/symbolic communication in AI. We propose models to play
Iconary and train them on over 55,000 games between human players. Our models
are skillful players and are able to employ world knowledge in language models
to play with words unseen during training. Elite human players outperform our
models, particularly at the drawing task, leaving an important gap for future
research to address. We release our dataset, code, and evaluation setup as a
challenge to the community at http://www.github.com/allenai/iconary.
- Abstract(参考訳): 人間とのコミュニケーションは、世界、複雑な意味論(例:メタファやアナロジー)、時にはマルチモーダルなジェスチャー(例:指で指を向けたり、図中の矢印を指したりする)の共通理解を必要とするため、aiにとって難しい。
我々は,これらの課題を,Pirctionaryに基づく図面と推測の協調ゲームであるIconaryの文脈で検討し,研究コミュニティに新たな課題をもたらす。
図式化において、投機家は、図面を構成することによって、引き出しが描いているフレーズを識別し、図面を反復的に修正して、投機者が反応するのを助ける。
このバック・アンド・フォースは、しばしば、難解な単語を表現するために、標準的なシーン、視覚的な比喩、またはアイコンの合成を使用する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでトレーニングするモデルを提案する。
私たちのモデルは熟練した選手であり、トレーニング中に見当たらない言葉で遊ぶために、言語モデルに世界の知識を活用できます。
人間のプレイヤーは、特に描画タスクにおいて我々のモデルよりも優れており、将来の研究に対処するための重要なギャップを残している。
私たちはデータセット、コード、評価設定をhttp://www.github.com/allenai/iconary.comでコミュニティへの挑戦としてリリースしています。
関連論文リスト
- IRFL: Image Recognition of Figurative Language [20.472997304393413]
図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:55Z) - Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images [63.629345688220496]
ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - Emergent Graphical Conventions in a Visual Communication Game [80.79297387339614]
人間は象徴的な言語とは別にグラフィカルなスケッチと通信する。
視覚コミュニケーションゲームをする2つのニューラルエージェントを介して、このような進化過程をモデル化し、シミュレートする第一歩を踏み出す。
我々は,コミュニケーションと抽象的なグラフィカルな慣行を成功させるために,エージェントを共同で進化させる新しい強化学習手法を考案した。
論文 参考訳(メタデータ) (2021-11-28T18:59:57Z) - IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) (2021-10-25T18:52:26Z) - Emergent Communication of Generalizations [13.14792537601313]
共有された視覚的コンテキストにおける1つのオブジェクトのコミュニケーションは、過度に適合する傾向があり、具体的な参照を超えて、言語が役に立つことを奨励しない、と我々は主張する。
抽象的な視覚概念を表すオブジェクトの集合上での通信一般化を必要とするゲームを提案する。
これらのゲームは学習言語の体系性と解釈可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-04T19:02:18Z) - Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation [1.52292571922932]
社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれについてコミュニケーションする能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
本稿では,自然言語生成のタスクと,視覚シーンや実物を記述するためのフリーハンドスケッチ/ハンドジェスチャを併用してモデル化する。
論文 参考訳(メタデータ) (2021-01-14T23:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。