論文の概要: ORES: Open-vocabulary Responsible Visual Synthesis
- arxiv url: http://arxiv.org/abs/2308.13785v1
- Date: Sat, 26 Aug 2023 06:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:07:34.508522
- Title: ORES: Open-vocabulary Responsible Visual Synthesis
- Title(参考訳): ORES: オープン語彙対応ビジュアル合成
- Authors: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang,
Zicheng Liu, Nan Duan
- Abstract要約: 我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
- 参考スコア(独自算出の注目度): 104.7572323359984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Avoiding synthesizing specific visual concepts is an essential challenge in
responsible visual synthesis. However, the visual concept that needs to be
avoided for responsible visual synthesis tends to be diverse, depending on the
region, context, and usage scenarios. In this work, we formalize a new task,
Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model
is able to avoid forbidden visual concepts while allowing users to input any
desired content. To address this problem, we present a Two-stage Intervention
(TIN) framework. By introducing 1) rewriting with learnable instruction through
a large-scale language model (LLM) and 2) synthesizing with prompt intervention
on a diffusion synthesis model, it can effectively synthesize images avoiding
any concepts but following the user's query as much as possible. To evaluate on
ORES, we provide a publicly available dataset, baseline models, and benchmark.
Experimental results demonstrate the effectiveness of our method in reducing
risks of image generation. Our work highlights the potential of LLMs in
responsible visual synthesis. Our code and dataset is public available.
- Abstract(参考訳): 特定の視覚概念の合成を避けることは、責任ある視覚合成において不可欠な課題である。
しかし、責任ある視覚合成のために避けるべき視覚概念は、地域、コンテキスト、使用シナリオによって多様である傾向がある。
本研究では,新たなタスクであるオープンボキャブラリー責任視覚合成(ores)を定式化し,ユーザが希望するコンテンツを入力することを可能にしながら,禁断の視覚概念を回避できるようにする。
この問題に対処するために,2段階干渉(TIN)フレームワークを提案する。
紹介することで
1)大規模言語モデル(LLM)による学習可能な指導による書き直し
2)拡散合成モデルへの迅速な介入により,任意の概念を回避しつつ,可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
ORESを評価するために、公開データセット、ベースラインモデル、ベンチマークを提供する。
実験により,画像生成のリスク低減に本手法の有効性が示された。
視覚合成におけるLCMの可能性を明らかにする。
コードとデータセットは公開されています。
関連論文リスト
- SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Visually Dehallucinative Instruction Generation [0.8192907805418583]
本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。
提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-02-13T10:25:45Z) - Teaching Language Models to Hallucinate Less with Synthetic Tasks [47.87453655902263]
大きな言語モデル(LLM)は抽象的な要約タスクにしばしば幻覚を与える。
合成タスクにおける幻覚の低減は、現実世界の下流タスクにおける幻覚の低減にも寄与することを示す。
論文 参考訳(メタデータ) (2023-10-10T17:57:00Z) - Survey on Controlable Image Synthesis with Deep Learning [15.29961293132048]
本稿では,ディープラーニングを用いた3次元制御可能な画像合成に関する最近の研究について述べる。
まず,3次元制御可能な画像合成のためのデータセットと評価指標を紹介する。
光制御可能な画像合成手法も3次元再照明研究のために検討されている。
論文 参考訳(メタデータ) (2023-07-18T07:02:51Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z) - Semantic View Synthesis [56.47999473206778]
我々はセマンティック・ビュー・シンセサイザーの新たな課題に取り組み、セマンティック・ラベル・マップを入力として、合成シーンの自由視点レンダリングを生成する。
まず,3次元映像の視覚面の色と深度を合成することに焦点を当てた。
次に、合成色と深度を用いて、多面画像(MPI)表現予測プロセスに明示的な制約を課す。
論文 参考訳(メタデータ) (2020-08-24T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。