論文の概要: Imagining Grounded Conceptual Representations from Perceptual
Information in Situated Guessing Games
- arxiv url: http://arxiv.org/abs/2011.02917v1
- Date: Thu, 5 Nov 2020 15:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:12:58.377804
- Title: Imagining Grounded Conceptual Representations from Perceptual
Information in Situated Guessing Games
- Title(参考訳): 擬似グエンシングゲームにおける知覚情報に基づく接地概念表現
- Authors: Alessandro Suglia, Antonio Vergari, Ioannis Konstas, Yonatan Bisk,
Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon
- Abstract要約: 視覚的な推測ゲームでは、GuesserはOracleに質問することで、シーン内のターゲットオブジェクトを特定する必要がある。
既存のモデルは真のマルチモーダル表現を学ばず、訓練と推論の両方でシーン内のオブジェクトのゴールドカテゴリラベルに依存している。
本稿では,正規化オートエンコーダをベースとした新しい「想像」モジュールを提案する。
- 参考スコア(独自算出の注目度): 83.53942719040576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In visual guessing games, a Guesser has to identify a target object in a
scene by asking questions to an Oracle. An effective strategy for the players
is to learn conceptual representations of objects that are both discriminative
and expressive enough to ask questions and guess correctly. However, as shown
by Suglia et al. (2020), existing models fail to learn truly multi-modal
representations, relying instead on gold category labels for objects in the
scene both at training and inference time. This provides an unnatural
performance advantage when categories at inference time match those at training
time, and it causes models to fail in more realistic "zero-shot" scenarios
where out-of-domain object categories are involved. To overcome this issue, we
introduce a novel "imagination" module based on Regularized Auto-Encoders, that
learns context-aware and category-aware latent embeddings without relying on
category labels at inference time. Our imagination module outperforms
state-of-the-art competitors by 8.26% gameplay accuracy in the CompGuessWhat?!
zero-shot scenario (Suglia et al., 2020), and it improves the Oracle and
Guesser accuracy by 2.08% and 12.86% in the GuessWhat?! benchmark, when no gold
categories are available at inference time. The imagination module also boosts
reasoning about object properties and attributes.
- Abstract(参考訳): 視覚的な推測ゲームでは、GuesserはOracleに質問することで、シーン内のターゲットオブジェクトを特定する必要がある。
プレイヤーにとって効果的な戦略は、識別的かつ表現的なオブジェクトの概念表現を学習し、質問をし、正しく推測するのに十分である。
しかし、Suglia et al. (2020) が示すように、既存のモデルは真のマルチモーダル表現を学ばず、訓練時間と推論時間の両方でシーン内のオブジェクトのゴールドカテゴリーラベルに依存している。
これは、推論時のカテゴリがトレーニング時のカテゴリと一致した場合に不自然なパフォーマンス上の優位性をもたらし、ドメイン外のオブジェクトカテゴリが関与するより現実的な"ゼロショット"シナリオでモデルが失敗する。
この課題を克服するために,正規化オートエンコーダに基づく新しい「画像化」モジュールを導入し,推論時にカテゴリラベルに依存することなく,文脈認識とカテゴリ認識の潜在埋め込みを学習する。
われわれのイマジネーションモジュールは、CompGuessのゲームプレイ精度を8.26%上回っている。
ゼロショットシナリオ (suglia et al., 2020) は,oracle と guesser の精度を 2.08% と 12.86% 向上させる。
ベンチマーク 推論時にゴールドカテゴリが利用できない場合。
イマジネーションモジュールはまた、オブジェクトプロパティと属性に関する推論を促進する。
関連論文リスト
- Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic
Esport Analytics [4.1692797498685685]
スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。
伝統的なスポーツと比較して、エスポートのタイトルは、メカニックやルールの観点から急速に変化する。
本稿では,ゲームデザイン(パッチノートなど)から情報を抽出し,クラスタリング手法を用いて文字表現の新たな形式を提案する。
論文 参考訳(メタデータ) (2023-05-29T11:05:20Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - A Categorical Framework of General Intelligence [12.134564449202708]
1950年にアラン・チューリングがこの質問をしたので、直接答えることはできない。
2つの主要な結果とともに、この目標に向けてカテゴリ的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-03-08T13:37:01Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。