論文の概要: IIR-VLM: In-Context Instance-level Recognition for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.14188v1
- Date: Tue, 20 Jan 2026 17:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.435106
- Title: IIR-VLM: In-Context Instance-level Recognition for Large Vision-Language Models
- Title(参考訳): IIR-VLM:大規模視覚言語モデルのための文脈内インスタンスレベルの認識
- Authors: Liang Shi, Wei Li, Kevin M Beussman, Lin Chen, Yun Fu,
- Abstract要約: In-context Instance-level Recognition のために拡張された VLM である IIR-VLM を提案する。
我々は、事前訓練されたIRRエキスパートモデルを補助視覚エンコーダとして統合し、多様なインスタンスを学習するための特別な機能を提供する。
既存のインスタンスパーソナライズベンチマークにおいて,IIR-VLMの有効性を検証する。
- 参考スコア(独自算出の注目度): 31.791478473292184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance-level recognition (ILR) concerns distinguishing individual instances from one another, with person re-identification as a prominent example. Despite the impressive visual perception capabilities of modern VLMs, we find their performance on ILR unsatisfactory, often dramatically underperforming domain-specific ILR models. This limitation hinders many practical application of VLMs, e.g. where recognizing familiar people and objects is crucial for effective visual understanding. Existing solutions typically learn to recognize instances one at a time using instance-specific datasets, which not only incur substantial data collection and training costs but also struggle with fine-grained discrimination. In this work, we propose IIR-VLM, a VLM enhanced for In-context Instance-level Recognition. We integrate pre-trained ILR expert models as auxiliary visual encoders to provide specialized features for learning diverse instances, which enables VLMs to learn new instances in-context in a one-shot manner. Further, IIR-VLM leverages this knowledge for instance-aware visual understanding. We validate IIR-VLM's efficacy on existing instance personalization benchmarks. Finally, we demonstrate its superior ILR performance on a challenging new benchmark, which assesses ILR capabilities across varying difficulty and diverse categories, with person, face, pet and general objects as the instances at task.
- Abstract(参考訳): インスタンスレベルの認識(ILR)は、個々のインスタンスを区別するものであり、人物の再識別が顕著な例である。
現代のVLMの印象的な視覚的知覚能力にもかかわらず、IRRの性能は不満足で、しばしばドメイン固有のIRRモデルの性能が劇的に劣っている。
この制限は、VLMの多くの実践的応用を妨げる。例えば、慣れ親しんだ人とオブジェクトを認識することは、効果的な視覚的理解に不可欠である。
既存のソリューションは通常、インスタンス固有のデータセットを使用してインスタンスを一度に認識することを学習する。
In-context Instance-level Recognition のために拡張された VLM である IIR-VLM を提案する。
我々は、訓練済みのIRRエキスパートモデルを補助的な視覚エンコーダとして統合し、多様なインスタンスを学習するための特別な機能を提供する。
さらに、IIR-VLMは、この知識を事例認識の視覚的理解に活用する。
既存のインスタンスパーソナライズベンチマークにおいて,IIR-VLMの有効性を検証する。
最後に,タスクのインスタンスとして人,顔,ペット,一般オブジェクトなど,さまざまな難易度および多様なカテゴリにわたるIRR能力を評価する,挑戦的な新しいベンチマークにおいて,その優れたIRR性能を実証する。
関連論文リスト
- Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - LLMs are Better Than You Think: Label-Guided In-Context Learning for Named Entity Recognition [10.920384665824807]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。
既存のICLメソッドは通常、実演検索にタスクに依存しないセマンティックな類似性に依存している。
トレーニング不要なICLアプローチであるDEERを導入し,LCMがより知的なエンティティ予測を行えるようにした。
論文 参考訳(メタデータ) (2025-05-29T17:54:32Z) - Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。