論文の概要: Personalized Image Descriptions from Attention Sequences
- arxiv url: http://arxiv.org/abs/2512.06662v1
- Date: Sun, 07 Dec 2025 05:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.457349
- Title: Personalized Image Descriptions from Attention Sequences
- Title(参考訳): 注意シーケンスからのパーソナライズされた画像記述
- Authors: Ruoyu Xue, Hieu Le, Jingyi Xu, Sounak Mondal, Abe Leite, Gregory Zelinsky, Minh Hoai, Dimitris Samaras,
- Abstract要約: 異なる領域、オブジェクト、詳細をさまざまな順序で参照し、異なる言語スタイルで記述する。
パーソナライズされた画像記述のための既存のモデルは、個々の視聴パターンを活用する以前の作業がなく、言語スタイルのみに焦点を当てている。
我々は、パーソナライズされた視聴動作を記述生成のコアファクターとして明示的にモデル化することで、このギャップに対処する。
そこで,本手法では,補助的な注意制御タスクによって誘導される言語スタイルと視聴行動の両方をキャプチャする対象埋め込みについて学習する。軽量なアダプタは,これらの埋め込みを凍結した視覚言語モデルと整合させ,再訓練を行なわずにパーソナライズすることができる。
- 参考スコア(独自算出の注目度): 55.65023709100682
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: People can view the same image differently: they focus on different regions, objects, and details in varying orders and describe them in distinct linguistic styles. This leads to substantial variability in image descriptions. However, existing models for personalized image description focus on linguistic style alone, with no prior work leveraging individual viewing patterns. We address this gap by explicitly modeling personalized viewing behavior as a core factor in description generation. Our method, DEPER (DEscription-PERception persona encoder), learns a subject embedding that captures both linguistic style and viewing behavior, guided by an auxiliary attention-prediction task. A lightweight adapter aligns these embeddings with a frozen vision-language model, enabling few-shot personalization without retraining. Across four datasets spanning diverse viewing tasks and both short and detailed descriptions, DEPER achieves a 24% average improvement, showing that modeling personalized attention produces more human-aligned and high-quality descriptions. We posit that understanding how people see helps predict what they say; modeling human diversity in perception can improve both performance and human alignment in multimodal systems.
- Abstract(参考訳): 異なる領域、オブジェクト、詳細をさまざまな順序で参照し、異なる言語スタイルで記述する。
これにより、画像記述にかなりのばらつきが生じる。
しかし、パーソナライズされた画像記述のための既存のモデルは、個々の視聴パターンを活用する以前の作業がなく、言語スタイルのみに焦点を当てている。
我々は、パーソナライズされた視聴動作を記述生成のコアファクターとして明示的にモデル化することで、このギャップに対処する。
提案手法であるDEPER(Description-Perception persona encoder)は,補助的な注意予測タスクによって誘導される言語スタイルと視聴行動の両方をキャプチャーする主題の埋め込みを学習する。
軽量のアダプタは、これらの埋め込みを凍結した視覚言語モデルと整列し、再訓練することなく、数ショットのパーソナライズを可能にする。
さまざまな視聴タスクにまたがる4つのデータセットと、短くて詳細な説明の両方にまたがって、DEPERは平均24%の改善を実現している。
認識における人間の多様性のモデリングは、マルチモーダルシステムのパフォーマンスと人間のアライメントの両方を改善することができる。
関連論文リスト
- Deciphering Personalization: Towards Fine-Grained Explainability in Natural Language for Personalized Image Generation Models [9.722829662835233]
FineXLは、複数の画像生成モデルに異なるパーソナライズシナリオを適用することで、説明可能性の精度を56%向上させることができる。
本稿では,パーソナライズされた画像生成モデルのための天然のtextbfLanguage における textbfFine-fine etextbfXplainability に対する textbfFineXL という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-02T16:08:24Z) - Improving Personalized Search with Regularized Low-Rank Parameter Updates [52.29168893900888]
視覚言語検索のための視覚言語二重エンコーダモデルの内部表現の適応方法を示す。
言語エンコーダの最終層における小さなパラメータ集合の正規化低ランク適応は、テキストインバージョンに対する高い効率の代替となる。
提案手法は,自然言語クエリを用いた個人化画像検索のための2つのベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-06-11T21:15:21Z) - U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。
ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。
SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文 参考訳(メタデータ) (2024-03-29T15:20:34Z) - Semantic and Expressive Variation in Image Captions Across Languages [26.766596770616655]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。