論文の概要: VASR: Visual Analogies of Situation Recognition
- arxiv url: http://arxiv.org/abs/2212.04542v1
- Date: Thu, 8 Dec 2022 20:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:02:12.773536
- Title: VASR: Visual Analogies of Situation Recognition
- Title(参考訳): VASR:状況認識のビジュアルアナロジー
- Authors: Yonatan Bitton, Ron Yosef, Eli Strugo, Dafna Shahaf, Roy Schwartz,
Gabriel Stanovsky
- Abstract要約: 環境認識のビジュアルアナロジ(Visual Analogies of situation Recognition)を新たに導入する。
我々はシーンの理解を必要とする複雑な類似に取り組みます。
データのサンプルに対するクラウドソースアノテーションは、人間が80%のデータセットラベルに同意していることを示している。
我々の実験は、邪魔者がランダムに選択された時に最先端のモデルがうまく機能することを示したが、慎重に選択された邪魔者には耐え難い。
- 参考スコア(独自算出の注目度): 21.114629154550364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core process in human cognition is analogical mapping: the ability to
identify a similar relational structure between different situations. We
introduce a novel task, Visual Analogies of Situation Recognition, adapting the
classical word-analogy task into the visual domain. Given a triplet of images,
the task is to select an image candidate B' that completes the analogy (A to A'
is like B to what?). Unlike previous work on visual analogy that focused on
simple image transformations, we tackle complex analogies requiring
understanding of scenes.
We leverage situation recognition annotations and the CLIP model to generate
a large set of 500k candidate analogies. Crowdsourced annotations for a sample
of the data indicate that humans agree with the dataset label ~80% of the time
(chance level 25%). Furthermore, we use human annotations to create a
gold-standard dataset of 3,820 validated analogies. Our experiments demonstrate
that state-of-the-art models do well when distractors are chosen randomly
(~86%), but struggle with carefully chosen distractors (~53%, compared to 90%
human accuracy). We hope our dataset will encourage the development of new
analogy-making models. Website: https://vasr-dataset.github.io/
- Abstract(参考訳): 人間の認知における核となるプロセスは、類似のマッピングである:異なる状況間で類似した関係構造を識別する能力。
本稿では,従来の単語認識タスクを視覚領域に適応させる新しいタスク,視覚認識の視覚アナロジを紹介する。
画像の三重項が与えられたとき、その類似性を完成させる画像候補B'を選択する(AからAはBのようなものか?
単純な画像変換に焦点を当てた以前のビジュアルアナロジーの作業とは異なり、シーンの理解を必要とする複雑なアナロジーに取り組む。
我々は状況認識アノテーションとクリップモデルを利用して,500k候補アナロジーの大規模なセットを生成する。
データのサンプルに対するクラウドソースアノテーションは、人間がデータセットラベルに約80%の時間(チャンスレベル25%)で同意していることを示している。
さらに、人間のアノテーションを用いて、3,820個の検証済みアナログのゴールドスタンダードデータセットを作成する。
私たちの実験では、最先端のモデルが邪魔者(約86%)がランダムに選択された場合(約53%)にうまく機能していることが示されています。
我々のデータセットは、新しい類推モデルの開発を促進することを願っている。
ウェブサイト:https://vasr-dataset.github.io/
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [69.26882668598587]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。
我々は、これらの欠落したカテゴリの例を満たすために、ドメイン間で合成データを生成する方法を示す。
最高のSynCDRモデルは、先行技術よりも最大15%パフォーマンスが向上します。
論文 参考訳(メタデータ) (2023-12-31T08:06:53Z) - FAME: Flexible, Scalable Analogy Mappings Engine [22.464249291871937]
この作業では、入力要求を緩和し、マッピングされるエンティティの名前のみを要求する。
我々は、自動的にコモンセンス表現を抽出し、それらを使ってエンティティ間のマッピングを識別する。
我々のフレームワークは部分的な類似を処理でき、新しいエンティティを追加することを提案できる。
論文 参考訳(メタデータ) (2023-11-03T12:08:02Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Life is a Circus and We are the Clowns: Automatically Finding Analogies
between Situations and Processes [12.8252101640812]
多くの研究が、新しいドメインに適応できる非脆性システムにとって、アナログが鍵であることを示唆している。
アナロジーの重要性にもかかわらず、NLPコミュニティではほとんど注目されなかった。
論文 参考訳(メタデータ) (2022-10-21T18:54:17Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models
Identify Analogies? [35.381345454627]
アナログを識別する教師なしタスクにおいて,トランスフォーマーに基づく言語モデルの性能を解析する。
オフザシェルフ言語モデルは、ある程度の類似を識別できるが、抽象的かつ複雑な関係に苦しむ。
本研究は,学習済み言語モデルがどのように抽象意味関係に関する知識を捉えているか,その程度について,今後の研究に向けて重要な疑問を提起するものである。
論文 参考訳(メタデータ) (2021-05-11T11:38:49Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。