論文の概要: Visual Personalization Turing Test
- arxiv url: http://arxiv.org/abs/2601.22680v1
- Date: Fri, 30 Jan 2026 07:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.307848
- Title: Visual Personalization Turing Test
- Title(参考訳): ビジュアルパーソナライズチューリングテスト
- Authors: Rameen Abdal, James Burgess, Sergey Tulyakov, Kuan-Chieh Jackson Wang,
- Abstract要約: 本稿では,視覚的パーソナライゼーションを評価するための新しいパラダイムである視覚的パーソナライゼーションチューリングテスト(VPTT)を紹介する。
モデルは、その出力が人間または校正されたVLM裁判官に、ある人が作成または共有する可能性のあるコンテンツから区別できない場合、VPTTを通過させる。
本稿では,人,VLM,VPTT評価に高い相関性を示し,VPTTスコアを信頼性の高い知覚プロキシとして検証した。
- 参考スコア(独自算出の注目度): 39.89515278533365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Visual Personalization Turing Test (VPTT), a new paradigm for evaluating contextual visual personalization based on perceptual indistinguishability, rather than identity replication. A model passes the VPTT if its output (image, video, 3D asset, etc.) is indistinguishable to a human or calibrated VLM judge from content a given person might plausibly create or share. To operationalize VPTT, we present the VPTT Framework, integrating a 10k-persona benchmark (VPTT-Bench), a visual retrieval-augmented generator (VPRAG), and the VPTT Score, a text-only metric calibrated against human and VLM judgments. We show high correlation across human, VLM, and VPTT evaluations, validating the VPTT Score as a reliable perceptual proxy. Experiments demonstrate that VPRAG achieves the best alignment-originality balance, offering a scalable and privacy-safe foundation for personalized generative AI.
- Abstract(参考訳): 本稿では,視覚的パーソナライゼーション・チューリングテスト(VPTT)を紹介する。
モデルは、その出力(画像、ビデオ、3Dアセットなど)が、人間または校正されたVLM裁判官が、ある人が作成または共有する可能性のあるコンテンツから区別できない場合、VPTTをパスする。
VPTTを運用するために、VPTTフレームワーク(VPTT-Bench)、ビジュアル検索拡張ジェネレータ(VPRAG)、および人やVLMの判断に対して調整されたテキストのみのメトリックであるVPTTスコアを統合する。
本稿では,人,VLM,VPTT評価に高い相関性を示し,VPTTスコアを信頼性の高い知覚プロキシとして検証した。
VPRAGは、パーソナライズされた生成AIのためのスケーラブルでプライバシセーフな基盤を提供する。
関連論文リスト
- Enhancing Visual Programming for Visual Reasoning via Probabilistic Graphs [47.54638493412879]
本稿では,確率グラフを用いた視覚推論のための視覚プログラミング手法EVPGを提案する。
GQA, NLVRv2, Open Imagesの3つの古典的複合VRタスクにおけるVPの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-12-16T10:07:40Z) - Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models [38.63571023556356]
テスト時適応(TTA)は,分散シフトに直面した場合の視覚言語モデル(VLM)の性能維持に不可欠である。
BPRE(Underline Bidirectional Prototype-Reward co-Evolution)を提案する。
BPREは、機能品質評価とプロトタイプの進化を相乗的なフィードバックループを通じて統合する。
我々のモデルは、他のSOTA法と比較して一貫して優れた性能を達成し、VLMの一般化能力を向上させる。
論文 参考訳(メタデータ) (2025-03-12T13:40:33Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - Understanding and Improving Visual Prompting: A Label-Mapping
Perspective [63.89295305670113]
我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。
提案手法は最先端のVP法よりも優れている。
論文 参考訳(メタデータ) (2022-11-21T16:49:47Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。