論文の概要: Learning to Edit Visual Programs with Self-Supervision
- arxiv url: http://arxiv.org/abs/2406.02383v2
- Date: Sat, 02 Nov 2024 01:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:59.845340
- Title: Learning to Edit Visual Programs with Self-Supervision
- Title(参考訳): 自己スーパービジョンでビジュアルプログラムを編集する学習
- Authors: R. Kenny Jones, Renhao Zhang, Aditya Ganeshan, Daniel Ritchie,
- Abstract要約: 視覚プログラムの編集方法を学ぶシステムを設計する。
編集ネットワークは、完全な入力プログラムと視覚的ターゲットを消費する。
入力プログラムに適用可能なローカル編集操作の予測をネットワーク上で行うことで,ターゲットとの類似性を向上する。
- 参考スコア(独自算出の注目度): 17.909843715152586
- License:
- Abstract: We design a system that learns how to edit visual programs. Our edit network consumes a complete input program and a visual target. From this input, we task our network with predicting a local edit operation that could be applied to the input program to improve its similarity to the target. In order to apply this scheme for domains that lack program annotations, we develop a self-supervised learning approach that integrates this edit network into a bootstrapped finetuning loop along with a network that predicts entire programs in one-shot. Our joint finetuning scheme, when coupled with an inference procedure that initializes a population from the one-shot model and evolves members of this population with the edit network, helps to infer more accurate visual programs. Over multiple domains, we experimentally compare our method against the alternative of using only the one-shot model, and find that even under equal search-time budgets, our editing-based paradigm provides significant advantages.
- Abstract(参考訳): 視覚プログラムの編集方法を学ぶシステムを設計する。
編集ネットワークは、完全な入力プログラムと視覚的ターゲットを消費する。
この入力から,入力プログラムに適用可能なローカル編集操作の予測を行い,ターゲットとの類似性を向上する。
プログラムアノテーションを欠いたドメインにこのスキームを適用するために、この編集ネットワークをブートストラップされた微調整ループに統合する自己教師付き学習アプローチと、プログラム全体を一括で予測するネットワークを開発する。
我々の共同ファインタニング手法は、1ショットモデルから個体群を初期化し、その個体群を編集ネットワークで進化させる推論手法と組み合わせることで、より正確な視覚プログラムを推論するのに役立つ。
複数のドメインにおいて、1ショットモデルのみを使用する方法と実験的に比較し、同じ検索時間予算下であっても、編集ベースのパラダイムが大きな利点をもたらすことを発見した。
関連論文リスト
- De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Probabilistic Self-supervised Learning via Scoring Rules Minimization [19.347097627898876]
本稿では,Scoring Rule Minimization (ProSMIN) を用いた確率論的自己教師型学習を提案する。
提案手法は,大規模データセットを用いた多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
論文 参考訳(メタデータ) (2023-09-05T08:48:25Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - Cross-modal Adversarial Reprogramming [12.467311480726702]
近年の逆転プログラミングの研究では、ネットワークアーキテクチャやパラメータを変更することなく、代替タスクのためにニューラルネットワークを再利用できることが示されている。
自然言語処理(NLP)やその他のシーケンス分類タスクのための画像分類ニューラルネットワークを逆転的に再検討する可能性を分析します。
論文 参考訳(メタデータ) (2021-02-15T03:46:16Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Neural Program Synthesis with a Differentiable Fixer [44.48509453344902]
本稿では,エンコーダとデコーダをベースとした合成アーキテクチャと,プログラムを識別可能な固定器を組み合わせた新しいプログラム合成手法を提案する。
RobustFillドメイン上でアーキテクチャをエンドツーエンドにトレーニングし、フィクスチャモジュールの追加によって、合成精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-06-19T01:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。