Fugu-MT 論文翻訳(概要): Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation

論文の概要: Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation

arxiv url: http://arxiv.org/abs/2308.07929v2
Date: Thu, 21 Sep 2023 14:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 18:56:14.923788
Title: Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation
Title（参考訳）: テキスト間分類と生成におけるBradley-Terry選好モデルによる高速適応
Authors: Victor Gallego
Abstract要約: 我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large multimodal models, such as CLIP and Stable Diffusion have experimented tremendous successes in both foundations and applications. However, as these models increase in parameter size and computational requirements, it becomes more challenging for users to personalize them for specific tasks or preferences. In this work, we address the problem of adapting the previous models towards sets of particular human preferences, aligning the retrieved or generated images with the preferences of the user. We leverage the Bradley-Terry preference model to develop a fast adaptation method that efficiently fine-tunes the original model, with few examples and with minimal computing resources. Extensive evidence of the capabilities of this framework is provided through experiments in different domains related to multimodal text and image understanding, including preference prediction as a reward model, and generation tasks.
Abstract（参考訳）: 近年、CLIPやStable Diffusionのような大規模なマルチモーダルモデルは、基礎とアプリケーションの両方で大きな成功を収めた。しかし、これらのモデルがパラメータサイズや計算要求を増大させるにつれ、ユーザーは特定のタスクや好みをパーソナライズすることがより困難になる。そこで本研究では,検索した画像や生成した画像をユーザの好みに合わせることで,従来のモデルを特定の人間の好みのセットに適応させる問題に対処する。本稿では,ブラッドレー・テリー選好モデルを用いて,少ない例と最小限の計算資源で,元のモデルを効率的に微調整する高速適応手法を開発した。このフレームワークの能力の広範な証拠は、報酬モデルとしての嗜好予測や生成タスクを含む、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。

関連論文リスト

Projectable Models: One-Shot Generation of Small Specialized Transformers from Large Ones [12.265271319203794]
大規模トランスフォーマーのパラメータをより小さな特殊モデルのパラメータにマッピングする手法について検討する。この変換タスクを具体化することにより、より小さなモデルで特定のタスクを実行するのに必要な知識のより狭い範囲を捉えることを目指している。画像モデリングタスクにおいて,生成したモデルの性能が普遍的条件付きモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-06T00:05:38Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。 GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文参考訳（メタデータ） (2024-12-16T14:46:57Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文参考訳（メタデータ） (2024-09-27T16:31:31Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。 PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文参考訳（メタデータ） (2024-06-12T17:54:54Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Continuous Language Model Interpolation for Dynamic and Controllable Text Generation [7.535219325248997]
私たちは、モデルが多様な、そしてしばしば変化する、ユーザの好みに動的に適応しなければならない、困難なケースに注目します。線形重みに基づく適応手法を活用し、連続的なマルチドメイン補間子としてキャストする。重みの変化がモデル出力の予測可能かつ一貫した変化をもたらすことを示す。
論文参考訳（メタデータ） (2024-04-10T15:55:07Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)
Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。潜在変数を使って一般化可能な学習パターンをモデル化する。推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文参考訳（メタデータ） (2020-10-07T03:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。