論文の概要: YoChameleon: Personalized Vision and Language Generation
- arxiv url: http://arxiv.org/abs/2504.20998v1
- Date: Tue, 29 Apr 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.041483
- Title: YoChameleon: Personalized Vision and Language Generation
- Title(参考訳): YoChameleon: パーソナライズドビジョンと言語生成
- Authors: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li,
- Abstract要約: Yo'Chameleonは、大規模なマルチモーダルモデルのパーソナライゼーションを研究する最初の試みである。
被写体固有の情報を埋め込んで、被写体に関する質問に答え、ピクセルレベルの詳細を再現し、新しい文脈で被写体の画像を生成する。
i)複数のモードで性能をバランスさせる自己プロンプト最適化機構、(ii)数ショット設定で画質を高めるための「ソフト陽性」画像生成手法を用いて訓練する。
- 参考スコア(独自算出の注目度): 54.11098551685136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into powerful tools with millions of users. However, they remain generic models and lack personalized knowledge of specific user concepts. Previous work has explored personalization for text generation, yet it remains unclear how these methods can be adapted to new modalities, such as image generation. In this paper, we introduce Yo'Chameleon, the first attempt to study personalization for large multimodal models. Given 3-5 images of a particular concept, Yo'Chameleon leverages soft-prompt tuning to embed subject-specific information to (i) answer questions about the subject and (ii) recreate pixel-level details to produce images of the subject in new contexts. Yo'Chameleon is trained with (i) a self-prompting optimization mechanism to balance performance across multiple modalities, and (ii) a ``soft-positive" image generation approach to enhance image quality in a few-shot setting.
- Abstract(参考訳): 大規模マルチモーダルモデル(GPT-4、Gemini、Chameleonなど)は、数百万のユーザを持つ強力なツールへと進化してきた。
しかし、それらは一般的なモデルのままであり、特定のユーザー概念のパーソナライズされた知識を欠いている。
これまではテキスト生成のパーソナライズについて検討されてきたが、これらの手法が画像生成などの新しいモダリティにどのように適応できるかは定かではない。
本稿では,大規模なマルチモーダルモデルに対するパーソナライズ研究の最初の試みであるYo'Chameleonを紹介する。
特定の概念の3~5つのイメージを与えられたヨーシャメレオンは、ソフト・プロンプト・チューニングを利用して主題固有の情報を埋め込む。
一 被疑者及び被疑者に関する質問に答えること
(II)新しい文脈で被写体の画像を生成するために画素レベルの細部を再現する。
ヨーシャメレオンは訓練を受けています
(i)複数のモードにまたがる性能のバランスをとる自己推進最適化機構、及び
(i) 「ソフト陽性」な画像生成手法により, 数ショットで画質を向上する。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-18T04:20:46Z) - PersonificationNet: Making customized subject act like a person [39.359589723267696]
本稿では,マンガのキャラクターやぬいぐるみなどの特定の主題を制御し,参照した人物のイメージと同じポーズをすることができるペルソナライズネットを提案する。
第1に、カスタマイズされたブランチは、特定対象の外観を模倣し、第2に、ポーズ条件ブランチは、人から変種インスタンスへ身体構造情報を転送し、最後に、推測段階において、人と特定対象の間の構造ギャップを橋渡しする。
論文 参考訳(メタデータ) (2024-07-12T07:27:07Z) - Chameleon: Mixed-Modal Early-Fusion Foundation Models [0.0]
任意の任意の順序で画像やテキストを理解・生成できる早期融合トークンベースの混合モードモデル群を提示する。
モデルは、視覚的質問応答、画像キャプション、テキスト生成、画像生成、長期混合モーダル生成など、包括的なタスクに基づいて評価される。
論文 参考訳(メタデータ) (2024-05-16T05:23:41Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。