論文の概要: WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2207.12576v1
- Date: Mon, 25 Jul 2022 23:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:14:19.932981
- Title: WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models
- Title(参考訳): winogavil: 視覚言語モデルに挑戦するgamified association benchmark
- Authors: Yonatan Bitton, Nitzan Bitton Guetta, Ron Yosef, Yuval Elovici, Mohit
Bansal, Gabriel Stanovsky, Roy Schwartz
- Abstract要約: 本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
- 参考スコア(独自算出の注目度): 91.92346150646007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-and-language models perform well on tasks such as visual
question answering, they struggle when it comes to basic human commonsense
reasoning skills. In this work, we introduce WinoGAViL: an online game to
collect vision-and-language associations, (e.g., werewolves to a full moon),
used as a dynamic benchmark to evaluate state-of-the-art models. Inspired by
the popular card game Codenames, a spymaster gives a textual cue related to
several visual candidates, and another player has to identify them. Human
players are rewarded for creating associations that are challenging for a rival
AI model but still solvable by other human players. We use the game to collect
3.5K instances, finding that they are intuitive for humans (>90% Jaccard index)
but challenging for state-of-the-art AI models, where the best model (ViLT)
achieves a score of 52%, succeeding mostly where the cue is visually salient.
Our analysis as well as the feedback we collect from players indicate that the
collected associations require diverse reasoning skills, including general
knowledge, common sense, abstraction, and more. We release the dataset, the
code and the interactive game, aiming to allow future data collection that can
be used to develop models with better association abilities.
- Abstract(参考訳): 視覚言語モデルは、視覚質問応答などのタスクでうまく機能する一方で、基本的な人間常識の推論スキルに関しては苦労している。
本研究では,視覚・言語関連を収集するオンラインゲームであるWinoGAViLについて紹介する。
人気カードゲームのコードネームにインスパイアされたスパイマスターは、いくつかの視覚候補に関連するテキストの手がかりを与え、別のプレイヤーはそれらを識別する必要があります。
人間のプレイヤーは、ライバルのaiモデルに挑戦するが、他の人間のプレイヤーによって解決できる協会を作ることで報われる。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間にとって直感的である(>90% Jaccard index)が、最先端のAIモデルでは挑戦的だ。
我々の分析とプレイヤーからのフィードバックは、収集された協会は、一般的な知識、常識、抽象など、多様な推論スキルを必要とすることを示している。
データセット、コード、インタラクティブなゲームをリリースし、より優れた関連性を持つモデルの開発に使用できる将来的なデータ収集を可能にします。
関連論文リスト
- Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game [20.64536059771047]
我々は,最先端の大規模言語モデル(LLM)の性能を,専門家や初心者に対して評価する。
この結果から,最高のLLMであるClaude 3.5 Sonnetでもゲーム全体の18%しか解けないことがわかった。
本研究では,コネクティクスゲームにおける単語のクラスタ化と分類に要する知識の種類を分類する。
論文 参考訳(メタデータ) (2024-06-16T17:10:32Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of
Synthetic and Compositional Images [63.629345688220496]
ビジュアルコモンセンスのための新しいデータセットとベンチマークであるWHOOPS!を紹介します。
データセットは、デザイナによって作成された、意図的に常識を守るイメージで構成されています。
GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - AI in (and for) Games [0.9920773256693857]
この章では、人工知能(AI)/機械学習(ML)アルゴリズムとデジタルゲームとの関係について概説する。
一方、ai/ml研究者は、人間の感情的活動、プレイヤーの行動に関する大規模かつ内部的なデータセットを生成できる。
一方、ゲームは知的アルゴリズムを利用して、ゲームレベルのテストの自動化、コンテンツの生成、知的でレスポンシブな非プレイヤーキャラクタ(NPC)の開発、プレイヤーの振る舞いの予測と応答を行うことができる。
論文 参考訳(メタデータ) (2021-05-07T08:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。