論文の概要: Learning Instance Representation Banks for Aerial Scene Classification
- arxiv url: http://arxiv.org/abs/2205.13744v1
- Date: Fri, 27 May 2022 03:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:55:42.635829
- Title: Learning Instance Representation Banks for Aerial Scene Classification
- Title(参考訳): 航空シーン分類のための学習インスタンス表現バンク
- Authors: Jingjun Yi and Beichen Zhou
- Abstract要約: 我々は,テキストイスタンス表現バンク(IRB)という新しい表現セットを提案する。
IRBはMIL(Multiple Case Learning)の定式化の下で複数のローカル記述子を統一する。
我々のIRB学習フレームワークは、バックボーン、インスタンス表現バンク、セマンティックフュージョンモジュール、シーンスキームアライメント損失関数からなる。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial scenes are more complicated in terms of object distribution and
spatial arrangement than natural scenes due to the bird view, and thus remain
challenging to learn discriminative scene representation. Recent solutions
design \textit{local semantic descriptors} so that region of interests (RoIs)
can be properly highlighted. However, each local descriptor has limited
description capability and the overall scene representation remains to be
refined. In this paper, we solve this problem by designing a novel
representation set named \textit{instance representation bank} (IRB), which
unifies multiple local descriptors under the multiple instance learning (MIL)
formulation. This unified framework is not trivial as all the local semantic
descriptors can be aligned to the same scene scheme, enhancing the scene
representation capability. Specifically, our IRB learning framework consists of
a backbone, an instance representation bank, a semantic fusion module and a
scene scheme alignment loss function. All the components are organized in an
end-to-end manner. Extensive experiments on three aerial scene benchmarks
demonstrate that our proposed method outperforms the state-of-the-art
approaches by a large margin.
- Abstract(参考訳): 空中のシーンは、鳥の視点による自然のシーンよりも物体の分布や空間配置が複雑であるため、識別的なシーン表現を学ぶのが困難である。
最近のソリューションは、関心領域(roi)を適切にハイライトできるように、 \textit{local semantic descriptor} を設計している。
しかし、各ローカルディスクリプタは限定的な記述能力を持ち、全体のシーン表現は洗練され続けている。
本稿では,多重インスタンス学習 (mil) の定式化の下で複数の局所記述子を統一する, \textit{instance representation bank} (irb) と呼ばれる新しい表現集合を設計することで,この問題を解決する。
この統一されたフレームワークは、すべてのローカルな意味記述子を同じシーンスキームにアラインでき、シーン表現能力を高めるので、自明ではない。
具体的には、irb学習フレームワークは、バックボーン、インスタンス表現バンク、セマンティック融合モジュール、シーンスキームアライメント損失関数で構成されています。
すべてのコンポーネントはエンドツーエンドで構成されます。
3つの空中シーンベンチマークに関する広範囲な実験により,提案手法が最先端のアプローチを大きなマージンで上回っていることを証明した。
関連論文リスト
- Efficient Scene Appearance Aggregation for Level-of-Detail Rendering [42.063285161104474]
本稿では,複雑なシーンの集合的な外観を表す新しいボリューム表現について述べる。
ボクセル内の局所的な相関関係と,シーンの異なる部分におけるグローバルな相関関係を捉えるという課題に対処する。
論文 参考訳(メタデータ) (2024-08-19T01:01:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - AssetField: Assets Mining and Reconfiguration in Ground Feature Plane
Representation [111.59786941545774]
AssetFieldは、新しいニューラルシーン表現で、シーンを表現するためにオブジェクト対応のグラウンド特徴面のセットを学習する。
AssetFieldは、新しいシーン構成のためのリアルなレンダリングを生成するとともに、新規ビュー合成のための競争性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T12:18:10Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Fine-Grained Object Classification via Self-Supervised Pose Alignment [42.55938966190932]
我々は,クラス間の自己教師型ポーズアライメントのための局所部分のグローバルな構成を明らかにするために,新しいグラフベースのオブジェクト表現を学習する。
提案手法を3つの評価対象分類ベンチマークで評価し,最先端性能を継続的に達成した。
論文 参考訳(メタデータ) (2022-03-30T01:46:19Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。