論文の概要: Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis
- arxiv url: http://arxiv.org/abs/2008.06981v2
- Date: Tue, 6 Apr 2021 19:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:50:42.267354
- Title: Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis
- Title(参考訳): Bowtie Networks:ジョイントフューショット認識のための生成モデリングと新規ビュー合成
- Authors: Zhipeng Bao, Yu-Xiong Wang and Martial Hebert
- Abstract要約: 本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
- 参考スコア(独自算出の注目度): 39.53519330457627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel task of joint few-shot recognition and novel-view
synthesis: given only one or few images of a novel object from arbitrary views
with only category annotation, we aim to simultaneously learn an object
classifier and generate images of that type of object from new viewpoints.
While existing work copes with two or more tasks mainly by multi-task learning
of shareable feature representations, we take a different perspective. We focus
on the interaction and cooperation between a generative model and a
discriminative model, in a way that facilitates knowledge to flow across tasks
in complementary directions. To this end, we propose bowtie networks that
jointly learn 3D geometric and semantic representations with a feedback loop.
Experimental evaluation on challenging fine-grained recognition datasets
demonstrates that our synthesized images are realistic from multiple viewpoints
and significantly improve recognition performance as ways of data augmentation,
especially in the low-data regime. Code and pre-trained models are released at
https://github.com/zpbao/bowtie_networks.
- Abstract(参考訳): 本稿では, 任意の視点から, カテゴリアノテーションのみで, 任意の視点から, 新規対象の1つないし2つの画像のみを合成し, オブジェクト分類器を同時に学習し, 新たな視点からその種類のオブジェクトの画像を生成する,という新しい課題を提案する。
既存の作業は、主に共有可能な特徴表現のマルチタスク学習によって、2つ以上のタスクに対処するが、異なる視点を取る。
我々は,生成モデルと識別モデルとの相互作用と協調に着目し,タスク間の知識の流れを相補的に支援する。
そこで我々は,フィードバックループを用いて3次元幾何および意味表現を共同学習するボウタイネットワークを提案する。
挑戦的細粒度認識データセットの実験的評価は,複数の視点から合成画像が現実的であり,特に低データ環境において,データ拡張の方法として認識性能が著しく向上することを示す。
コードと事前トレーニングされたモデルはhttps://github.com/zpbao/bowtie_networksでリリースされる。
関連論文リスト
- Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。
我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-15T20:24:30Z) - ImageBind: One Embedding Space To Bind Them All [41.46167013891263]
ImageBindは、6つの異なるモードにまたがる共同埋め込みを学ぶためのアプローチだ。
画像ペアデータだけがモダリティを結合するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-09T17:59:07Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Deep Contrastive Learning for Multi-View Network Embedding [20.035449838566503]
マルチビューネットワーク埋め込みは、ネットワーク内のノードを低次元ベクトルに投影することを目的としている。
ほとんどの対照的な学習ベースの手法は、主に高品質なグラフ埋め込みに依存している。
マルチビューネットワーク埋め込み(CREME)のための新しいノード間コントラスト学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-08-16T06:29:18Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。