論文の概要: Personalized Vision via Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2509.25172v1
- Date: Mon, 29 Sep 2025 17:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.148876
- Title: Personalized Vision via Visual In-Context Learning
- Title(参考訳): 視覚的インテクスト学習によるパーソナライズドビジョン
- Authors: Yuxin Jiang, Yuchao Gu, Yiren Song, Ivor Tsang, Mike Zheng Shou,
- Abstract要約: パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
- 参考スコア(独自算出の注目度): 62.85784251383279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models, trained on large-scale annotated datasets, excel at predefined tasks but struggle with personalized vision -- tasks defined at test time by users with customized objects or novel objectives. Existing personalization approaches rely on costly fine-tuning or synthetic data pipelines, which are inflexible and restricted to fixed task formats. Visual in-context learning (ICL) offers a promising alternative, yet prior methods confine to narrow, in-domain tasks and fail to generalize to open-ended personalization. We introduce Personalized In-Context Operator (PICO), a simple four-panel framework that repurposes diffusion transformers as visual in-context learners. Given a single annotated exemplar, PICO infers the underlying transformation and applies it to new inputs without retraining. To enable this, we construct VisRel, a compact yet diverse tuning dataset, showing that task diversity, rather than scale, drives robust generalization. We further propose an attention-guided seed scorer that improves reliability via efficient inference scaling. Extensive experiments demonstrate that PICO (i) surpasses fine-tuning and synthetic-data baselines, (ii) flexibly adapts to novel user-defined tasks, and (iii) generalizes across both recognition and generation.
- Abstract(参考訳): 大規模なアノテートデータセットに基づいてトレーニングされたモダンなビジョンモデルは、事前に定義されたタスクに精通するが、カスタマイズされたオブジェクトや新しい目的を持つユーザによってテスト時に定義されたタスク -- パーソナライズされたビジョンに苦労する。
既存のパーソナライゼーションアプローチは、コストのかかる微調整や合成データパイプラインに依存している。
ビジュアル・イン・コンテキスト・ラーニング(ICL)は、狭義のドメイン内タスクに限定し、オープンエンドのパーソナライゼーションに一般化できない、有望な代替手段を提供する。
In-Context Operator (PICO, Personalized In-Context Operator) は、拡散トランスフォーマーを視覚的インコンテキスト学習者として活用する単純な4パネルフレームワークである。
1つの注釈付き例を与えられたPICOは、基礎となる変換を推論し、再トレーニングせずに新しい入力に適用する。
これを実現するために、コンパクトだが多様なチューニングデータセットであるVisRelを構築し、スケールではなくタスクの多様性が堅牢な一般化を促進することを示す。
さらに,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
PICOの大規模実験
(i)微調整・合成データベースラインを超える。
(二)新規ユーザ定義タスクに柔軟に対応し、
(iii)認識と生成の両方にまたがって一般化する。
関連論文リスト
- TaskVAE: Task-Specific Variational Autoencoders for Exemplar Generation in Continual Learning for Human Activity Recognition [1.0687457324219043]
継続的学習により、モデルがデータストリームの進化から学ぶことができ、事前知識の忘れを最小化できる。
本稿では,クラスインクリメンタル設定におけるリプレイベースCLのフレームワークであるTaskVAEを提案する。
すべてのタスクに対して、クラス数に関する事前の知識を必要とする伝統的なメソッドや単一のVAEに依存している伝統的なメソッドとは対照的に、TaskVAEはそのような制約なしにタスクの増加に柔軟に対応します。
論文 参考訳(メタデータ) (2025-05-10T17:42:01Z) - CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。