論文の概要: Unsupervised Program Synthesis for Images By Sampling Without
Replacement
- arxiv url: http://arxiv.org/abs/2001.10119v2
- Date: Mon, 14 Jun 2021 21:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:50:36.735101
- Title: Unsupervised Program Synthesis for Images By Sampling Without
Replacement
- Title(参考訳): 置換のないサンプリングによる画像の教師なしプログラム合成
- Authors: Chenghui Zhou, Chun-Liang Li, Barnabas Poczos
- Abstract要約: 構築的ソリッド幾何(CSG)画像を文脈自由文法(CFG)に解析できる最初の教師なしアルゴリズムを提案する。
我々のアルゴリズムは、大規模検索空間における有意義なプログラムを最大3.8倍の1028ドルまで回収する。
本手法は完全に教師なしであり,合成2次元CSGデータセット上での教師付き手法よりも優れた手法を一般化する。
- 参考スコア(独自算出の注目度): 14.64155013167323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program synthesis has emerged as a successful approach to the image parsing
task. Most prior works rely on a two-step scheme involving supervised
pretraining of a Seq2Seq model with synthetic programs followed by
reinforcement learning (RL) for fine-tuning with real reference images. Fully
unsupervised approaches promise to train the model directly on the target
images without requiring curated pretraining datasets. However, they struggle
with the inherent sparsity of meaningful programs in the search space. In this
paper, we present the first unsupervised algorithm capable of parsing
constructive solid geometry (CSG) images into context-free grammar (CFG)
without pretraining via non-differentiable renderer. To tackle the
\emph{non-Markovian} sparse reward problem, we combine three key ingredients --
(i) a grammar-encoded tree LSTM ensuring program validity (ii) entropy
regularization and (iii) sampling without replacement from the CFG syntax tree.
Empirically, our algorithm recovers meaningful programs in large search spaces
(up to $3.8 \times 10^{28}$). Further, even though our approach is fully
unsupervised, it generalizes better than supervised methods on the synthetic 2D
CSG dataset. On the 2D computer aided design (CAD) dataset, our approach
significantly outperforms the supervised pretrained model and is competitive to
the refined model.
- Abstract(参考訳): プログラム合成は、画像解析タスクへのアプローチとして成功した。
ほとんどの先行研究は、合成プログラムによるseq2seqモデルの教師付き事前トレーニングと、実際の参照画像の微調整のための強化学習(rl)を含む2段階のスキームに依存している。
完全に教師なしのアプローチは、トレーニング済みのデータセットを必要とせずに、ターゲットイメージ上でモデルを直接トレーニングすることを約束する。
しかし、検索分野における有意義なプログラムの本質的なスパースに苦慮している。
本稿では,コンストラクティブソリッドジオメトリ(csg)画像を,非微分レンダラを介さずに文脈自由文法(cfg)に解析できる,初の教師なしアルゴリズムを提案する。
Emph{non-Markovian}スパース報酬問題に取り組むために、我々は3つの重要な要素を組み合わせる。
i) プログラムの有効性を保証する文法符号化木LSTM
(ii)エントロピー正規化及び
(iii)CFG構文木を置換せずにサンプリングする。
経験的に、我々のアルゴリズムは大きな検索空間で有意義なプログラムを復元する(最大3.8 \times 10^{28}$)。
さらに,本手法は完全に教師なしであっても,合成2次元CSGデータセットの教師付き手法よりも優れた一般化を行う。
2次元コンピュータ支援設計データセット(CAD)において,本手法は教師付き事前学習モデルよりも有意に優れ,洗練されたモデルと競合する。
関連論文リスト
- Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Self-Supervised Dual Contouring [30.9409064656302]
本稿ではニューラルデュアルコンチューリングメッシュフレームワークのための自己教師型トレーニングスキームを提案する。
生成メッシュ間の距離の整合性を促進する2つの新しい自己教師付き損失関数を用いる。
単視点再構成作業における自己監督的損失によりメッシュ性能が向上することが実証された。
論文 参考訳(メタデータ) (2024-05-28T12:44:28Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Optimized latent-code selection for explainable conditional
text-to-image GANs [8.26410341981427]
本稿では,条件付きテキスト・ツー・イメージGANモデルの潜時空間と意味空間を深く検討する様々な手法を提案する。
本稿では,線形SVMを用いて,優れた潜在コードを見つけるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T03:12:55Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。