論文の概要: Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition
- arxiv url: http://arxiv.org/abs/2510.26466v1
- Date: Thu, 30 Oct 2025 13:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.818609
- Title: Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition
- Title(参考訳): Debiased Zero-Shot 認識のための表現レベル逆校正法
- Authors: Pei Peng, MingKun Xie, Hang Hao, Tong Jin, ShengJun Huang,
- Abstract要約: 私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内のオブジェクトと背景の期待値を推定し、反ファクトの埋め込みを合成する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善する。
- 参考スコア(独自算出の注目度): 36.36218470387896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-context shortcuts remain a persistent challenge in vision-language models, undermining zero-shot reliability when test-time scenes differ from familiar training co-occurrences. We recast this issue as a causal inference problem and ask: Would the prediction remain if the object appeared in a different environment? To answer this at inference time, we estimate object and background expectations within CLIP's representation space, and synthesize counterfactual embeddings by recombining object features with diverse alternative contexts sampled from external datasets, batch neighbors, or text-derived descriptions. By estimating the Total Direct Effect and simulating intervention, we further subtract background-only activation, preserving beneficial object-context interactions while mitigating hallucinated scores. Without retraining or prompt design, our method substantially improves both worst-group and average accuracy on context-sensitive benchmarks, establishing a new zero-shot state of the art. Beyond performance, our framework provides a lightweight representation-level counterfactual approach, offering a practical causal avenue for debiased and reliable multimodal reasoning.
- Abstract(参考訳): オブジェクトコンテキストのショートカットは、視覚言語モデルにおける永続的な課題であり、テスト時のシーンが慣れ親しんだトレーニングの共起と異なる場合、ゼロショットの信頼性を損なう。
私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内でのオブジェクトと背景の期待を推定し、外部データセット、バッチ隣人、テキスト由来の記述からサンプリングされたさまざまな代替コンテキストでオブジェクト特徴を再結合することにより、偽ファクトの埋め込みを合成する。
本研究は、トータル・ダイレクト・エフェクトを推定し、介入をシミュレートすることにより、背景のみのアクティベーションをさらに減らし、幻覚的スコアを緩和しつつ、有益なオブジェクト・コンテキスト相互作用を保存する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善し,新たなゼロショット・オブ・ザ・アーティファクトを確立した。
性能以外にも、我々のフレームワークは軽量な表現レベルの対実的アプローチを提供し、不偏で信頼性の高いマルチモーダル推論のための実践的な因果的道を提供する。
関連論文リスト
- Adversary-Free Counterfactual Prediction via Information-Regularized Representations [8.760019957506719]
本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
論文 参考訳(メタデータ) (2025-10-17T09:49:04Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Forget-me-not! Contrastive Critics for Mitigating Posterior Collapse [20.258298183228824]
我々は,潜伏変数と観測値の対応を必要とする事で,後部崩壊を検知し,インセンティブを与える推論評論家を紹介した。
このアプローチは実装が簡単で、事前のメソッドよりもトレーニング時間が大幅に少なくなります。
論文 参考訳(メタデータ) (2022-07-19T20:07:17Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。