論文の概要: Incomplete In-context Learning
- arxiv url: http://arxiv.org/abs/2505.07251v1
- Date: Mon, 12 May 2025 05:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.269914
- Title: Incomplete In-context Learning
- Title(参考訳): 不完全インコンテクスト学習
- Authors: Wenqiang Wang, Yangshijie Zhang,
- Abstract要約: データベース更新や不完全なデータアノテーションの遅延は、クラスの一部分のみのラベル付きサンプルを含む検索データベースをもたらす可能性がある。
我々は,IICLの限界を緩和する2段階フレームワークであるtextbfIterative Judgments and Integrated Prediction (IJIP)を提案する。
IJIPはラベルの不完全性の条件下で2つのLVLMと2つのデータセットでかなりの性能を示す。
- 参考スコア(独自算出の注目度): 1.2540429019617183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision language models (LVLMs) achieve remarkable performance through Vision In-context Learning (VICL), a process that depends significantly on demonstrations retrieved from an extensive collection of annotated examples (retrieval database). Existing studies often assume that the retrieval database contains annotated examples for all labels. However, in real-world scenarios, delays in database updates or incomplete data annotation may result in the retrieval database containing labeled samples for only a subset of classes. We refer to this phenomenon as an \textbf{incomplete retrieval database} and define the in-context learning under this condition as \textbf{Incomplete In-context Learning (IICL)}. To address this challenge, we propose \textbf{Iterative Judgments and Integrated Prediction (IJIP)}, a two-stage framework designed to mitigate the limitations of IICL. The Iterative Judgments Stage reformulates an \(\boldsymbol{m}\)-class classification problem into a series of \(\boldsymbol{m}\) binary classification tasks, effectively converting the IICL setting into a standard VICL scenario. The Integrated Prediction Stage further refines the classification process by leveraging both the input image and the predictions from the Iterative Judgments Stage to enhance overall classification accuracy. IJIP demonstrates considerable performance across two LVLMs and two datasets under three distinct conditions of label incompleteness, achieving the highest accuracy of 93.9\%. Notably, even in scenarios where labels are fully available, IJIP still achieves the best performance of all six baselines. Furthermore, IJIP can be directly applied to \textbf{Prompt Learning} and is adaptable to the \textbf{text domain}.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、注釈付きサンプル(検索データベース)の広範なコレクションから取得したデモに大きく依存するVision In-context Learning(VICL)を通じて、顕著なパフォーマンスを達成する。
既存の研究は、検索データベースが全てのラベルに注釈付き例を含むと仮定することが多い。
しかし、現実のシナリオでは、データベース更新や不完全なデータアノテーションの遅延は、クラスの一部分のみのラベル付きサンプルを含む検索データベースをもたらす可能性がある。
本稿では、この現象を「textbf{不完全検索データベース」と呼び、この条件下でのインコンテクスト学習を「textbf{不完全インコンテクスト学習(IICL)」と定義する。
この課題に対処するため,我々は,IICLの限界を軽減するために設計された2段階のフレームワークである「textbf{Iterative Judgments and Integrated Prediction (IJIP)」を提案する。
イテレーティブ・ジャッジメント・ステージは \(\boldsymbol{m}\) クラス分類問題を一連の \(\boldsymbol{m}\) バイナリ分類タスクに再構成し、IICL 設定を標準 VICL シナリオに変換する。
統合予測段階は、入力画像と反復判断段階からの予測の両方を活用することにより、分類過程をさらに洗練し、全体的な分類精度を向上させる。
IJIPはラベルの不完全性の3つの異なる条件下で2つのLVLMと2つのデータセットでかなりの性能を示し、93.9\%の精度を達成した。
特に、ラベルが完全に利用可能であるシナリオでも、IJIPは6つのベースラインすべてで最高のパフォーマンスを達成しています。
さらに、IJIP は \textbf{Prompt Learning} に直接適用することができ、 \textbf{text domain} にも適用可能である。
関連論文リスト
- SIT-FER: Integration of Semantic-, Instance-, Text-level Information for Semi-supervised Facial Expression Recognition [4.670023983240585]
セマンティック、インスタンス、テキストレベルの情報を同時に組み込んで高品質な擬似ラベルを生成する新しいSS-DFERフレームワークを提案する。
提案手法は現状のSS-DFER法を著しく上回り, 完全に教師付きベースラインを超えている。
論文 参考訳(メタデータ) (2025-03-24T09:08:14Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。