論文の概要: COVR: A test-bed for Visually Grounded Compositional Generalization with
real images
- arxiv url: http://arxiv.org/abs/2109.10613v1
- Date: Wed, 22 Sep 2021 09:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:48:23.093247
- Title: COVR: A test-bed for Visually Grounded Compositional Generalization with
real images
- Title(参考訳): COVR:実画像を用いた視覚的合成一般化のためのテストベッド
- Authors: Ben Bogin, Shivanshu Gupta, Matt Gardner, Jonathan Berant
- Abstract要約: COVRは実画像を用いた視覚的な合成一般化のためのテストベッドである。
COVRを作成するために,シーングラフを付加した実画像を使用し,質問応答ペアを生成するためのほぼ完全な自動手順を提案する。
- 参考スコア(独自算出の注目度): 46.559878410318234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While interest in models that generalize at test time to new compositions has
risen in recent years, benchmarks in the visually-grounded domain have thus far
been restricted to synthetic images. In this work, we propose COVR, a new
test-bed for visually-grounded compositional generalization with real images.
To create COVR, we use real images annotated with scene graphs, and propose an
almost fully automatic procedure for generating question-answer pairs along
with a set of context images. COVR focuses on questions that require complex
reasoning, including higher-order operations such as quantification and
aggregation. Due to the automatic generation process, COVR facilitates the
creation of compositional splits, where models at test time need to generalize
to new concepts and compositions in a zero- or few-shot setting. We construct
compositional splits using COVR and demonstrate a myriad of cases where
state-of-the-art pre-trained language-and-vision models struggle to
compositionally generalize.
- Abstract(参考訳): テスト時に新しい構成に一般化するモデルへの関心は近年高まっているが、視覚的な領域のベンチマークは今のところ合成画像に限られている。
本研究では,実画像を用いた視覚的合成一般化のための新しいテストベッドであるCOVRを提案する。
covrの作成には,シーングラフをアノテートした実画像を使用し,コンテキスト画像のセットとともに質問応答対を生成するためのほぼ完全自動手順を提案する。
covrは、量子化やアグリゲーションのような高階演算を含む複雑な推論を必要とする問題に焦点を当てている。
自動生成プロセスのため、COVRは構成分割の作成を容易にし、テスト時のモデルはゼロまたは少数ショットの設定で新しい概念や構成に一般化する必要がある。
我々はCOVRを用いて構成分割を構築し、最先端の訓練済み言語・ビジョンモデルが構成的一般化に苦慮するケースを無数に示す。
関連論文リスト
- ReMatching Dynamic Reconstruction Flow [55.272357926111454]
本稿では,動的再構成モデルに変形前処理を組み込むことにより,一般化品質の向上を目的としたReMatchingフレームワークを提案する。
このフレームワークは高度に適応可能であり、様々な動的表現に適用できる。
合成シーンと実世界のダイナミックシーンの両方を含む一般的なベンチマークの評価は、現在の最先端モデルの再構築精度を明らかに向上させたことを示す。
論文 参考訳(メタデータ) (2024-11-01T16:09:33Z) - UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets [20.767590006724117]
入力ビューの組み合わせの有効性を示すために、ビュー合成スコアを導入し、検証する。
これを実現するために、ソース画像間の相互作用とビルド相関フラストラムのモデル化にクロスビューマッチングトランスフォーマを適用した。
提案手法は,ビュー・コンビネーション・ジェネリゼーション・ジェネリザビリティにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-08T06:27:13Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - ViewNeRF: Unsupervised Viewpoint Estimation Using Category-Level Neural
Radiance Fields [35.89557494372891]
ニューラルラジアンス場に基づく視点推定法であるViewNeRFを導入する。
提案手法は,条件付きNeRFと視点予測器とシーンエンコーダを組み合わせた合成手法を用いて解析を行う。
本モデルでは,合成データセットと実データセットの競合結果を示す。
論文 参考訳(メタデータ) (2022-12-01T11:16:11Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Augmentation-Interpolative AutoEncoders for Unsupervised Few-Shot Image
Generation [45.380129419065746]
Augmentation-Interpolative AutoEncodersは、いくつかの参照画像から新しいオブジェクトの現実的なイメージを合成する。
我々の手順はシンプルで軽量であり、広範囲に一般化されており、訓練中にカテゴリラベルやその他の監督を必要としない。
論文 参考訳(メタデータ) (2020-11-25T21:18:55Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。