論文の概要: TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.01048v1
- Date: Sun, 30 Nov 2025 19:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.561236
- Title: TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models
- Title(参考訳): TRoVe: 時間的視覚・言語モデルにおける誤り誘発静的特徴バイアスの発見
- Authors: Maya Varma, Jean-Benoit Delbrouck, Sophie Ostmeier, Akshay Chaudhari, Curtis Langlotz,
- Abstract要約: TRoVeは、エラーを誘発する静的な特徴バイアスを発見するための自動化アプローチである。
視覚言語モデルにおいて,TRoVeは誤りを誘発する静的な特徴バイアスを正確に識別できることを示す。
- 参考スコア(独自算出の注目度): 10.388673049493947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have made great strides in addressing temporal understanding tasks, which involve characterizing visual changes across a sequence of images. However, recent works have suggested that when making predictions, VLMs may rely on static feature biases, such as background or object features, rather than dynamic visual changes. Static feature biases are a type of shortcut and can contribute to systematic prediction errors on downstream tasks; as a result, identifying and characterizing error-inducing static feature biases is critical prior to real-world model deployment. In this work, we introduce TRoVe, an automated approach for discovering error-inducing static feature biases learned by temporal VLMs. Given a trained VLM and an annotated validation dataset associated with a downstream classification task, TRoVe extracts candidate static features from the dataset and scores each feature by (i) the effect of the feature on classification errors as well as (ii) the extent to which the VLM relies on the feature when making predictions. In order to quantitatively evaluate TRoVe, we introduce an evaluation framework consisting of 101 trained temporal VLMs paired with ground-truth annotations for learned static feature biases. We use this framework to demonstrate that TRoVe can accurately identify error-inducing static feature biases in VLMs, achieving a 28.6% improvement over the closest baseline. Finally, we apply TRoVe to 7 off-the-shelf VLMs and 2 temporal understanding tasks, surfacing previously-unknown static feature biases and demonstrating that knowledge of learned biases can aid in improving model performance at test time. Our code is available at https://github.com/Stanford-AIMI/TRoVe.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像列の視覚的変化を特徴付ける時間的理解タスクに対処するために大きな進歩を遂げてきた。
しかし、最近の研究では、VLMは動的視覚的変化ではなく、背景やオブジェクトのような静的な特徴バイアスに依存する可能性があることが示唆されている。
静的な特徴バイアスはショートカットの一種であり、下流タスクの体系的な予測エラーに寄与することができる。
本研究では,時間的VLMで学習した静的な特徴バイアスを自動で検出するTRoVeを提案する。
トレーニングされたVLMと、下流の分類タスクに関連する注釈付き検証データセットが与えられた後、TRoVeはデータセットから候補となる静的特徴を抽出し、各特徴をスコアリングする。
一 特徴が分類誤差及び分類誤差に与える影響
(二)VLMが予測を行う際の特徴に依存する程度
TRoVeを定量的に評価するために,静的な特徴バイアスを学習するための接地トラスアノテーションと組み合わせた101の時間的VLMを用いた評価フレームワークを提案する。
我々は、このフレームワークを用いて、TRoVeがVLMのエラー誘発静的特徴バイアスを正確に識別できることを示し、最も近いベースラインに対して28.6%の改善を実現している。
最後に、TRoVeを7つの既成のVLMと2つの時間的理解タスクに適用し、既知の静的な特徴バイアスを克服し、学習バイアスの知識がテスト時のモデル性能向上に役立つことを示す。
私たちのコードはhttps://github.com/Stanford-AIMI/TRoVe.comで公開されています。
関連論文リスト
- CALM: A Framework for Continuous, Adaptive, and LLM-Mediated Anomaly Detection in Time-Series Streams [0.42970700836450476]
本稿では,リアルタイム異常検出のための新しいエンドツーエンドフレームワークであるCALMを紹介する。
CALMはApache Beam分散処理フレームワーク上に構築されている。
クローズドループで連続的な微調整機構を実装し、異常検出モデルがほぼリアルタイムで進化するデータパターンに適応できるようにする。
論文 参考訳(メタデータ) (2025-08-29T00:27:35Z) - LLM-empowered Dynamic Prompt Routing for Vision-Language Models Tuning under Long-Tailed Distributions [3.5268162595059076]
本稿では,視覚言語モデル(VLM)のための多次元動的プロンプトルーティング(MDPR)フレームワークを提案する。
MDPRは5つの視覚的セマンティック次元にまたがる、クラスのための総合的な知識ベースを構築する。
CIFAR-LT、ImageNet-LT、Places-LTなどの長期ベンチマークの実験は、MDPRが現在のSOTAメソッドと同等の結果を得ることを示した。
論文 参考訳(メタデータ) (2025-08-21T16:12:06Z) - Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文 参考訳(メタデータ) (2025-03-11T12:24:54Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias [13.008323851750442]
本稿では,クラスタリングとアノテーションを動的に調整する適応型クラスタリングに基づく能動的学習アルゴリズムD-CALMを提案する。
感情,ヘイトスピーチ,ダイアログ行為,書籍型検出など,多種多様なテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムがベースラインALアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-05-26T15:17:43Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。