論文の概要: Improving Personalized Search with Regularized Low-Rank Parameter Updates
- arxiv url: http://arxiv.org/abs/2506.10182v1
- Date: Wed, 11 Jun 2025 21:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.460496
- Title: Improving Personalized Search with Regularized Low-Rank Parameter Updates
- Title(参考訳): 正規化低ランクパラメータ更新によるパーソナライズ検索の改善
- Authors: Fiona Ryan, Josef Sivic, Fabian Caba Heilbron, Judy Hoffman, James M. Rehg, Bryan Russell,
- Abstract要約: 視覚言語検索のための視覚言語二重エンコーダモデルの内部表現の適応方法を示す。
言語エンコーダの最終層における小さなパラメータ集合の正規化低ランク適応は、テキストインバージョンに対する高い効率の代替となる。
提案手法は,自然言語クエリを用いた個人化画像検索のための2つのベンチマークにおいて,最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 52.29168893900888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalized vision-language retrieval seeks to recognize new concepts (e.g. "my dog Fido") from only a few examples. This task is challenging because it requires not only learning a new concept from a few images, but also integrating the personal and general knowledge together to recognize the concept in different contexts. In this paper, we show how to effectively adapt the internal representation of a vision-language dual encoder model for personalized vision-language retrieval. We find that regularized low-rank adaption of a small set of parameters in the language encoder's final layer serves as a highly effective alternative to textual inversion for recognizing the personal concept while preserving general knowledge. Additionally, we explore strategies for combining parameters of multiple learned personal concepts, finding that parameter addition is effective. To evaluate how well general knowledge is preserved in a finetuned representation, we introduce a metric that measures image retrieval accuracy based on captions generated by a vision language model (VLM). Our approach achieves state-of-the-art accuracy on two benchmarks for personalized image retrieval with natural language queries - DeepFashion2 and ConCon-Chi - outperforming the prior art by 4%-22% on personal retrievals.
- Abstract(参考訳): パーソナライズされた視覚言語検索は、いくつかの例から新しい概念(例えば「私の犬フィド」)を認識しようとする。
この課題は、いくつかの画像から新しい概念を学ぶだけでなく、異なる文脈における概念を認識するために、個人的知識と一般知識を統合する必要があるため、難しい。
本稿では,パーソナライズされた視覚言語検索のための視覚言語二重エンコーダモデルの内部表現を効果的に適用する方法を示す。
言語エンコーダの最終層における少数のパラメータ集合の正規化低ランク適応は、一般知識を維持しながら個人概念を認識するためのテキストインバージョンに非常に効果的な代替手段であることがわかった。
さらに、複数の学習された個人概念のパラメータを組み合わせるための戦略について検討し、パラメータの追加が効果的であることを示す。
本稿では,視覚言語モデル(VLM)によって生成されたキャプションに基づいて,画像検索精度を測定する指標を提案する。
提案手法は,DeepFashion2 と ConCon-Chi という,自然言語クエリによるパーソナライズされた画像検索のための2つのベンチマークにおける最先端の精度を,個人検索において4%-22%向上させる。
関連論文リスト
- Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - "This is my unicorn, Fluffy": Personalizing frozen vision-language
representations [31.618829097336047]
パーソナライズドビジョン・アンド・ランゲージ(PerVL)と呼ばれる新しい学習環境を導入する。
PerVLでは、ダウンストリームタスクとは独立してパーソナライズされた概念を学ぶ必要がある。
本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,画像検索やセマンティックセグメンテーションに効果的に適用できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。