論文の概要: Investigating transformers in the decomposition of polygonal shapes as
point collections
- arxiv url: http://arxiv.org/abs/2108.07533v1
- Date: Tue, 17 Aug 2021 09:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 19:48:52.386936
- Title: Investigating transformers in the decomposition of polygonal shapes as
point collections
- Title(参考訳): 点集合としての多角形分解におけるトランスフォーマーの研究
- Authors: Andrea Alfieri, Yancong Lin and Jan C. van Gemert
- Abstract要約: 視覚集合予測タスクにおける自動回帰予測と並列予測の差について検討する。
複素多角形を自己回帰的に点の集合に分解する利点を示す。
- 参考スコア(独自算出の注目度): 20.148961622211637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers can generate predictions in two approaches: 1. auto-regressively
by conditioning each sequence element on the previous ones, or 2. directly
produce an output sequences in parallel. While research has mostly explored
upon this difference on sequential tasks in NLP, we study the difference
between auto-regressive and parallel prediction on visual set prediction tasks,
and in particular on polygonal shapes in images because polygons are
representative of numerous types of objects, such as buildings or obstacles for
aerial vehicles. This is challenging for deep learning architectures as a
polygon can consist of a varying carnality of points. We provide evidence on
the importance of natural orders for Transformers, and show the benefit of
decomposing complex polygons into collections of points in an auto-regressive
manner.
- Abstract(参考訳): トランスフォーマーは、2つのアプローチで予測を生成することができる: 1. 前の要素に各シーケンス要素を条件付けすることで自動回帰する。
NLPにおけるシーケンシャルタスクにおけるこの違いについて、主に研究されているが、視覚集合予測タスクにおける自己回帰と並列予測の違い、特に多角形は、建物や航空機の障害物など、さまざまな種類の物体を代表しているため、画像中の多角形について研究している。
これは、多角形が点のカーニリティによって構成できるため、ディープラーニングアーキテクチャにとって困難である。
変圧器の自然順序の重要性を実証し, 複素多角形を自己回帰的に点の集合に分解する利点を示す。
関連論文リスト
- A Recipe for Geometry-Aware 3D Mesh Transformers [2.0992612407358293]
本研究では, ノード数可変のパッチを収容するパッチレベルで, 特徴を埋め込む手法について検討する。
本研究は,1)一般的な3次元メッシュトランスフォーマにおける熱拡散による構造的および位置的埋め込みの重要性,2)学習の強化における測地的マスキングや機能的相互作用といった新しい要素の有効性,3)セグメント化と分類作業の課題における提案手法の優れた性能と効率性など,重要な知見を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-31T19:13:31Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - HiT: Building Mapping with Hierarchical Transformers [43.31497052507252]
階層変換器を用いた簡易かつ斬新な建物マッピング手法HiTを提案する。
HiTは、分類とバウンディングボックス回帰ヘッドに平行なポリゴンヘッドを追加することによって、2段階検出アーキテクチャの上に構築される。
本手法は, 最先端手法と比較して, 事例分割と多角形メトリクスの両面において, 新たな最先端化を実現している。
論文 参考訳(メタデータ) (2023-09-18T10:24:25Z) - PolyDiffuse: Polygonal Shape Reconstruction via Guided Set Diffusion
Models [26.819929072916363]
PolyDiffuseは、視覚センサデータを拡散モデル(DM)で多角形に変換する新しい構造化再構成アルゴリズムである。
DMは、生成AIが爆発する中、新興機械であり、センサデータに条件付けされた生成プロセスとして再構築を定式化している。
我々は,多角形の集合としてのフロアプランと,一組のポリラインとしての自律走行車用HDマップという,2種類の多角形形状を再構築するためのアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-02T11:38:04Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Recurrent Generic Contour-based Instance Segmentation with Progressive
Learning [111.31166268300817]
本稿では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。
従来のSnakeアルゴリズムに動機付け,提案したPolySnakeはより優れた,堅牢なセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-01-21T05:34:29Z) - A Light Touch Approach to Teaching Transformers Multi-view Geometry [80.35521056416242]
視覚変換器の多視点幾何学習を支援する「ライトタッチ」手法を提案する。
本研究では,トランスフォーマーのクロスアテンションマップの導出にエピポーラ線を用いる。
従来の方法とは異なり、我々の提案ではテスト時にカメラのポーズ情報を必要としない。
論文 参考訳(メタデータ) (2022-11-28T07:54:06Z) - AutoPoly: Predicting a Polygonal Mesh Construction Sequence from a
Silhouette Image [17.915067368873018]
AutoPolyはシルエット画像から多角形メッシュ構築シーケンスを生成するハイブリッド手法である。
提案手法はトポロジを修正できるが,最近提案された微分可能レンダリングを用いた逆形状推定法は固定トポロジのみを処理できる。
論文 参考訳(メタデータ) (2022-03-29T04:48:47Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。