論文の概要: Retrieving Counterfactuals Improves Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2603.16737v1
- Date: Tue, 17 Mar 2026 16:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.407536
- Title: Retrieving Counterfactuals Improves Visual In-Context Learning
- Title(参考訳): 対物検索は視覚的インテクスト学習を改善する
- Authors: Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang,
- Abstract要約: In-context Learning (ICL)は、視覚言語モデルが新しいタスクに適応するための有望な道を提供する。
既存の検索強化アプローチは、パッシブ類似性に基づく検索に依存している。
本稿では,実証セットを積極的に構築する新しいフレームワークであるCIRCLESを紹介する。
- 参考スコア(独自算出の注目度): 41.6338086518055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved impressive performance across a wide range of multimodal reasoning tasks, but they often struggle to disentangle fine-grained visual attributes and reason about underlying causal relationships. In-context learning (ICL) offers a promising avenue for VLMs to adapt to new tasks, but its effectiveness critically depends on the selection of demonstration examples. Existing retrieval-augmented approaches typically rely on passive similarity-based retrieval, which tends to select correlated but non-causal examples, amplifying spurious associations and limiting model robustness. We introduce CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), a novel framework that actively constructs demonstration sets by retrieving counterfactual-style examples through targeted, attribute-guided composed image retrieval. By incorporating counterfactual-style examples, CIRCLES enables VLMs to implicitly reason about the causal relations between attributes and outcomes, moving beyond superficial correlations and fostering more robust and grounded reasoning. Comprehensive experiments on four diverse datasets demonstrate that CIRCLES consistently outperforms existing methods across multiple architectures, especially on small-scale models, with pronounced gains under information scarcity. Furthermore, CIRCLES retrieves more diverse and causally informative examples, providing qualitative insights into how models leverage in-context demonstrations for improved reasoning. Our code is available at https://github.com/gzxiong/CIRCLES.
- Abstract(参考訳): 視覚言語モデル(VLM)は、様々なマルチモーダル推論タスクにおいて印象的なパフォーマンスを達成しているが、細粒度の視覚的特性と根底にある因果関係の推論を乱すのにしばしば苦労している。
In-context Learning (ICL)は、VLMが新しいタスクに適応するための有望な道を提供するが、その効果は実演例の選択に大きく依存する。
既存の検索強化アプローチは、典型的にはパッシブ類似性に基づく検索に依存しており、相関しているが非因果的な例を選択し、刺激的な関連を増幅し、モデルロバスト性を制限する傾向にある。
本稿では,CIRCLES(Composed Image Retrieval for Causal Learning Example Selection)を紹介する。
CIRCLESは、対物的な例を取り入れることで、VLMが属性と結果の間の因果関係を暗黙的に推論し、表面的相関を超えて、より堅牢で基礎的な推論を促進することを可能にする。
4つの多様なデータセットに関する総合的な実験により、CIRCLESは複数のアーキテクチャ、特に小規模モデルにおいて既存のメソッドを一貫して上回り、情報不足下では顕著に向上することを示した。
さらに、CIRCLESはより多様で因果的な事例を検索し、モデルが推論を改善するためにコンテキスト内デモをどのように活用するかに関する質的な洞察を提供する。
私たちのコードはhttps://github.com/gzxiong/CIRCLES.comで公開されています。
関連論文リスト
- Enhancing Multimodal Entity Linking with Jaccard Distance-based Conditional Contrastive Learning and Contextual Visual Augmentation [37.22528391940295]
本稿では,JD-CCL(Jaccard Distance-based Contrastive Learning)を提案する。
参照やエンティティ間の視覚的モダリティの変化による制約を解決するために,新しいCVaCPT(Con Visual-aid Controllable Patch Transform)を提案する。
論文 参考訳(メタデータ) (2025-01-24T01:35:10Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。