論文の概要: Towards Reliable and Holistic Visual In-Context Learning Prompt Selection
- arxiv url: http://arxiv.org/abs/2509.25989v1
- Date: Tue, 30 Sep 2025 09:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.080627
- Title: Towards Reliable and Holistic Visual In-Context Learning Prompt Selection
- Title(参考訳): 信頼性とホロスティックなビジュアルインテクスト学習のプロンプト選択に向けて
- Authors: Wenxiao Wu, Jing-Hao Xue, Chengming Xu, Chen Liu, Xinwei Sun, Changxin Gao, Nong Sang, Yanwei Fu,
- Abstract要約: Visual In-Context Learning (VICL) は、視覚基礎モデルを新しいタスクに適用するための顕著なアプローチとして登場した。
部分2Global や VPR のような VICL の手法は、クエリ画像とより視覚的に類似したイメージが、より良いコンテキスト内例として機能するという類似性と優先度の仮定に基づいている。
本稿では、VICLにおけるテキスト内サンプルの信頼性と包括的選択のために、Partial2Globalの拡張版を提案する。
- 参考スコア(独自算出の注目度): 82.23704441763651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual In-Context Learning (VICL) has emerged as a prominent approach for adapting visual foundation models to novel tasks, by effectively exploiting contextual information embedded in in-context examples, which can be formulated as a global ranking problem of potential candidates. Current VICL methods, such as Partial2Global and VPR, are grounded in the similarity-priority assumption that images more visually similar to a query image serve as better in-context examples. This foundational assumption, while intuitive, lacks sufficient justification for its efficacy in selecting optimal in-context examples. Furthermore, Partial2Global constructs its global ranking from a series of randomly sampled pairwise preference predictions. Such a reliance on random sampling can lead to incomplete coverage and redundant samplings of comparisons, thus further adversely impacting the final global ranking. To address these issues, this paper introduces an enhanced variant of Partial2Global designed for reliable and holistic selection of in-context examples in VICL. Our proposed method, dubbed RH-Partial2Global, leverages a jackknife conformal prediction-guided strategy to construct reliable alternative sets and a covering design-based sampling approach to ensure comprehensive and uniform coverage of pairwise preferences. Extensive experiments demonstrate that RH-Partial2Global achieves excellent performance and outperforms Partial2Global across diverse visual tasks.
- Abstract(参考訳): ビジュアル・インコンテキスト・ラーニング(VICL)は、視覚基礎モデルを新しいタスクに適応するための顕著なアプローチとして、コンテキスト内サンプルに埋め込まれたコンテキスト情報を効果的に活用し、潜在的候補のグローバルなランキング問題として定式化することができる。
現在のVICL法(Partial2GlobalやVPRなど)は、クエリ画像とより視覚的に類似した画像が、より良いコンテキスト内例として機能するという類似性と優先度の仮定に基づいている。
この基礎的な仮定は直感的であるが、最適なインコンテキストの例を選択するのに十分な正当性を欠いている。
さらに、Partial2Globalはそのグローバルランキングを、ランダムにサンプリングされたペアの選好予測から構築する。
このようなランダムサンプリングへの依存は、不完全なカバレッジと冗長な比較サンプリングにつながる可能性があるため、最終的なグローバルランキングにさらに悪影響を及ぼす。
このような問題に対処するため,本研究では,VICLにおけるテキスト内例の信頼性と包括的選択のために,Partial2Globalの拡張版を提案する。
RH-Partial2Global と呼ばれる提案手法では,ジャックニフェ共形予測誘導方式を用いて,信頼性の高い代替集合の構築と,ペアの選好の包括的かつ均一なカバレッジを確保するための設計に基づくサンプリング手法を提案する。
広汎な実験により、RH-Partial2Globalは優れた性能を発揮し、様々な視覚的タスクでPartial2Globalを上回っている。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Towards Global Optimal Visual In-Context Learning Prompt Selection [50.174301123013045]
そこで本研究では,グローバルな最適プロンプトを特定するための,コンテキスト内サンプル選択フレームワークを提案する。
Partial2Globalと呼ばれるこの手法では、より包括的な比較を行うために、トランスフォーマーベースのリストワイズローダを採用している。
partial2Globalの有効性は、前景のセグメンテーション、単一物体の検出、画像の着色に関する実験を通じて検証される。
論文 参考訳(メタデータ) (2024-05-24T07:07:24Z) - Extracting Interpretable Local and Global Representations from Attention
on Time Series [0.135975510645475]
本稿では,局所的抽象化とグローバル表現を併用した2つのトランスフォーマーアテンションに基づく解釈可能性手法を提案する。
ローカルコンテキストとグローバルコンテキストを区別し、一般的な解釈オプションの両方に包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-09-16T00:51:49Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。