論文の概要: PatchGame: Learning to Signal Mid-level Patches in Referential Games
- arxiv url: http://arxiv.org/abs/2111.01785v1
- Date: Tue, 2 Nov 2021 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 15:04:19.452669
- Title: PatchGame: Learning to Signal Mid-level Patches in Referential Games
- Title(参考訳): PatchGame: Referential Gamesにおける中レベルのパッチの署名を学ぶ
- Authors: Kamal Gupta, Gowthami Somepalli, Anubhav Gupta, Vinoj Jayasundara,
Matthias Zwicker, Abhinav Shrivastava
- Abstract要約: 本研究では,2つのエージェントが個別のボトルネックを通じて相互に通信し,共通の目標を達成する参照ゲームについて検討する。
我々の参照ゲームでは、話者のゴールは「重要な」イメージパッチのメッセージやシンボル表現を構成することであり、リスナーは話者のメッセージを同じ画像の異なるビューにマッチさせることである。
我々は,2人のエージェントが明示的あるいは暗黙的な監督なしに通信プロトコルを開発することが可能であることを示す。
- 参考スコア(独自算出の注目度): 38.79852742348459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a referential game (a type of signaling game) where two agents
communicate with each other via a discrete bottleneck to achieve a common goal.
In our referential game, the goal of the speaker is to compose a message or a
symbolic representation of "important" image patches, while the task for the
listener is to match the speaker's message to a different view of the same
image. We show that it is indeed possible for the two agents to develop a
communication protocol without explicit or implicit supervision. We further
investigate the developed protocol and show the applications in speeding up
recent Vision Transformers by using only important patches, and as pre-training
for downstream recognition tasks (e.g., classification). Code available at
https://github.com/kampta/PatchGame.
- Abstract(参考訳): 2つのエージェントが離散的ボトルネックを介して相互に通信し,共通の目標を達成するためのレファレンシャルゲーム(シグナリングゲームの一種)について検討した。
私たちの参照ゲームでは、話者のゴールは「重要な」イメージパッチのメッセージまたは象徴的な表現を構成することであるが、リスナーのタスクは話者のメッセージを同じイメージの異なるビューにマッチさせることである。
我々は,2人のエージェントが明示的あるいは暗黙的な監督なしに通信プロトコルを開発することが可能であることを示す。
さらに, 重要なパッチのみを用いた最近の視覚トランスフォーマーの高速化や, 下流認識タスク(例えば分類)の事前学習への応用について検討した。
コードはhttps://github.com/kampta/patchgame。
関連論文リスト
- Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Listener Model for the PhotoBook Referential Game with CLIPScores as
Implicit Reference Chain [0.9558392439655015]
PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。
そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを,直接的に対処する参照チェーンフリーリスナモデルを提案する。
DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。
論文 参考訳(メタデータ) (2023-06-16T03:41:14Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Learning Multi-Object Positional Relationships via Emergent
Communication [16.26264889682904]
観測対象が2つの対象を含む参照ゲームにおいてエージェントを訓練し、位置関係が関与している場合、一般化が主要な問題であることを示す。
学習言語は,目標を位置関係で記述したマルチステップのMDPタスクにおいてうまく一般化でき,実画像や事前学習した画像機能よりも優れることがわかった。
また,参照ゲームからの言語移行は,このタスクで直接学習する言語よりも,新しいタスクにおいて優れており,参照ゲームにおける事前学習のメリットが示唆されている。
論文 参考訳(メタデータ) (2023-02-16T04:44:53Z) - Learning to Communicate with Intent: An Introduction [2.007345596217044]
本稿では,通信の終了目標に基づいて,無線通信チャネル上でメッセージを送信する方法を学ぶための新しいフレームワークを提案する。
これは、送信側が送信側から送ったメッセージの正確またはほぼ一方を受信側で再生することを目的としている古典的な通信システムとは対照的である。
論文 参考訳(メタデータ) (2022-11-17T16:02:13Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - The emergence of visual semantics through communication games [0.0]
ビジュアルセマンティクスをキャプチャする通信システムは、適切なタイプのゲームをすることで、完全に自己監督された方法で学習することができる。
我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。
論文 参考訳(メタデータ) (2021-01-25T17:43:37Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。