Fugu-MT 論文翻訳(概要): UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

論文の概要: UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

arxiv url: http://arxiv.org/abs/2505.14671v1
Date: Tue, 20 May 2025 17:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.664237
Title: UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens
Title（参考訳）: UniCTokens: 統一コンセプトトークンによるパーソナライズされた理解と生成の促進
Authors: Ruichuan An, Sihan Yang, Renrui Zhang, Zijun Shen, Ming Lu, Gaole Dai, Hao Liang, Ziyu Guo, Shilin Yan, Yulin Luo, Bocheng Zou, Chaoqun Yang, Wentao Zhang,
Abstract要約: 我々は、パーソナライズされた情報を統合された視覚言語モデル(VLM)に統合し、理解と生成を行うUniCTokensを提案する。 UniCTokensは、補完的なセマンティクスを活用するために統一された概念トークンのセットをトレーニングし、2つのパーソナライズされたタスクを強化した。我々の研究は、理解の向上が生成を改善することを示し、生成プロセスは理解に価値ある洞察を与えることができる。
参考スコア（独自算出の注目度）: 33.65708615798432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personalized models have demonstrated remarkable success in understanding and generating concepts provided by users. However, existing methods use separate concept tokens for understanding and generation, treating these tasks in isolation. This may result in limitations for generating images with complex prompts. For example, given the concept $\langle bo\rangle$, generating "$\langle bo\rangle$ wearing its hat" without additional textual descriptions of its hat. We call this kind of generation personalized knowledge-driven generation. To address the limitation, we present UniCTokens, a novel framework that effectively integrates personalized information into a unified vision language model (VLM) for understanding and generation. UniCTokens trains a set of unified concept tokens to leverage complementary semantics, boosting two personalized tasks. Moreover, we propose a progressive training strategy with three stages: understanding warm-up, bootstrapping generation from understanding, and deepening understanding from generation to enhance mutual benefits between both tasks. To quantitatively evaluate the unified VLM personalization, we present UnifyBench, the first benchmark for assessing concept understanding, concept generation, and knowledge-driven generation. Experimental results on UnifyBench indicate that UniCTokens shows competitive performance compared to leading methods in concept understanding, concept generation, and achieving state-of-the-art results in personalized knowledge-driven generation. Our research demonstrates that enhanced understanding improves generation, and the generation process can yield valuable insights into understanding. Our code and dataset will be released at: \href{https://github.com/arctanxarc/UniCTokens}{https://github.com/arctanxarc/UniCTokens}.
Abstract（参考訳）: パーソナライズされたモデルは、ユーザが提供する概念の理解と生成において顕著な成功を収めた。しかし、既存の手法では、異なる概念トークンを使用して理解と生成を行い、これらのタスクを分離して扱う。これは複雑なプロンプトを持つ画像の生成に制限をもたらす可能性がある。例えば、$\langle bo\rangle$という概念が与えられたら、"$\langle bo\rangle$ wearing its hat"を、その帽子に関する追加のテキスト記述なしで生成する。この種の世代を、パーソナライズされた知識駆動世代と呼ぶ。この制限に対処するために、パーソナライズされた情報を理解と生成のための統一視覚言語モデル(VLM)に効果的に統合する新しいフレームワークUniCTokensを提案する。 UniCTokensは、補完的なセマンティクスを活用するために統一された概念トークンのセットをトレーニングし、2つのパーソナライズされたタスクを強化した。さらに、ウォームアップの理解、理解からのブートストラップ生成、両タスク間の相互利益を高めるための生成からの理解の深化という3段階のプログレッシブトレーニング戦略を提案する。統一VLMパーソナライゼーションを定量的に評価するために,概念理解,概念生成,知識駆動生成を評価するための最初のベンチマークであるUnifyBenchを提案する。 UnifyBenchの実験結果から、UniCTokensは、概念理解、概念生成、そして個人化された知識駆動生成における最先端の成果を達成する上で、先行する手法と比較して、競争力のある性能を示すことが示唆された。我々の研究は、理解の向上が生成を改善することを示し、生成プロセスは理解に価値ある洞察を与えることができる。コードとデータセットは次の通りリリースされる。 \href{https://github.com/arctanxarc/UniCTokens}{https://github.com/arctanxarc/UniCTokens}。

関連論文リスト

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文参考訳（メタデータ） (2025-05-19T12:17:04Z)
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文参考訳（メタデータ） (2025-04-06T09:20:49Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。 VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。 MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文参考訳（メタデータ） (2024-12-18T18:58:50Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文参考訳（メタデータ） (2024-08-24T02:26:42Z)
Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文参考訳（メタデータ） (2024-07-01T14:39:41Z)
Knowledge graphs for empirical concept retrieval [1.06378109904813]
概念に基づく説明可能なAIは、あるユーザの前提における複雑なモデルの理解を改善するツールとして期待されている。本稿では,テキスト領域と画像領域の両方でユーザ主導のデータ収集を行うワークフローを提案する。我々は,概念アクティベーションベクトル(CAV)と概念アクティベーション領域(CAR)の2つの概念ベース説明可能性手法を用いて,検索した概念データセットをテストする。
論文参考訳（メタデータ） (2024-04-10T13:47:22Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。