論文の概要: Oracle Guided Image Synthesis with Relative Queries
- arxiv url: http://arxiv.org/abs/2204.14189v1
- Date: Thu, 28 Apr 2022 16:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:17:26.207047
- Title: Oracle Guided Image Synthesis with Relative Queries
- Title(参考訳): 相対的クエリによるOracleのガイド画像合成
- Authors: Alec Helbling, Christopher John Rozell, Matthew O'Shaughnessy, Kion
Fallah
- Abstract要約: 我々は, オラクル利用者が, 相対的なクエリの列に答えることで, 頭部に想定する画像を生成できる技術を開発した。
次に、ユーザの相対的なクエリに対する応答を用いて、想定された出力画像に対応する嗜好関連機能を決定する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isolating and controlling specific features in the outputs of generative
models in a user-friendly way is a difficult and open-ended problem. We develop
techniques that allow an oracle user to generate an image they are envisioning
in their head by answering a sequence of relative queries of the form
\textit{"do you prefer image $a$ or image $b$?"} Our framework consists of a
Conditional VAE that uses the collected relative queries to partition the
latent space into preference-relevant features and non-preference-relevant
features. We then use the user's responses to relative queries to determine the
preference-relevant features that correspond to their envisioned output image.
Additionally, we develop techniques for modeling the uncertainty in images'
predicted preference-relevant features, allowing our framework to generalize to
scenarios in which the relative query training set contains noise.
- Abstract(参考訳): ユーザフレンドリーな方法で生成モデルの出力の特定の特徴を分離し、制御することは困難かつオープンな問題である。
当社のフレームワークは条件付きvaeで構成されており、収集された相対的クエリを使用して、潜在空間を選好関連機能と非参照関連機能に分割する。
次に、ユーザの相対的なクエリに対する応答を用いて、想定された出力画像に対応する嗜好関連機能を決定する。
さらに,画像の予測された嗜好関連特徴の不確かさをモデル化する手法を開発し,相対的問合せ学習セットがノイズを含むシナリオを一般化する。
関連論文リスト
- Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - PrefGen: Preference Guided Image Generation with Relative Attributes [5.0741409008225755]
深層生成モデルには、人間の顔のようなコンテンツの忠実度の高い画像をレンダリングする能力がある。
我々は、ユーザが生成した画像の相対属性を制御できる$textitPrefGen$システムを開発した。
本稿では,人間の顔編集作業において,StyleGAN2ジェネレータを用いたアプローチの成功例を示す。
論文 参考訳(メタデータ) (2023-04-01T00:41:51Z) - Self-supervised Multi-view Disentanglement for Expansion of Visual
Collections [6.944742823561]
類似した画像に対する問い合わせが画像の集合から導出される設定について考察する。
ビジュアルサーチでは、類似度の測定は複数の軸に沿って行うか、スタイルや色などのビューで行うことができる。
本研究の目的は,複数のビューからの表現に対して計算された類似性を効果的に組み合わせた検索アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-02-04T22:09:17Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - RetrieveGAN: Image Synthesis via Differentiable Patch Retrieval [76.87013602243053]
本稿では,シーン記述からイメージを抽出したパッチを参照として合成する,識別可能な検索モジュールを提案する。
提案手法が現実的かつ多様な画像を生成可能であることを示すため,広範に定量的かつ定性的な実験を行った。
論文 参考訳(メタデータ) (2020-07-16T17:59:04Z) - Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。
また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。
合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文 参考訳(メタデータ) (2020-05-08T15:24:35Z) - Using Image Captions and Multitask Learning for Recommending Query
Reformulations [11.99358906295761]
商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
論文 参考訳(メタデータ) (2020-03-02T08:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。