論文の概要: Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut
Features
- arxiv url: http://arxiv.org/abs/2206.07155v1
- Date: Tue, 14 Jun 2022 20:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 23:43:06.555831
- Title: Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut
Features
- Title(参考訳): 画像とテキストの自己スーパービジョンによるビジュアルショートカット機能への依存度低減
- Authors: Anil Palepu, Andrew L Beam
- Abstract要約: ショートカット機能は、トレーニングデータに対する関心の結果に関連しているが、もはや関連付けられていないか、テストやデプロイメント設定に存在しないインプットである。
画像とテキストで訓練された自己教師型モデルは、より堅牢な画像表現を提供し、視覚的ショートカット機能への依存を減らす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models trained in a fully supervised manner have been shown to
rely on so-called "shortcut" features. Shortcut features are inputs that are
associated with the outcome of interest in the training data, but are either no
longer associated or not present in testing or deployment settings. Here we
provide experiments that show recent self-supervised models trained on images
and text provide more robust image representations and reduce the model's
reliance on visual shortcut features on a realistic medical imaging example.
Additionally, we find that these self-supervised models "forget" shortcut
features more quickly than fully supervised ones when fine-tuned on labeled
data. Though not a complete solution, our experiments provide compelling
evidence that self-supervised models trained on images and text provide some
resilience to visual shortcut features.
- Abstract(参考訳): 完全に教師された方法で訓練されたディープラーニングモデルは、いわゆる“ショートカット”機能に依存することが示されている。
ショートカット機能は、トレーニングデータに対する関心の結果に関連付けられた入力であるが、もはや関連していないか、テストやデプロイメント設定に存在しない。
本稿では,画像とテキストで訓練された最近の自己教師モデルがより堅牢な画像表現を提供し,リアルな医用画像例における視覚的ショートカット機能への依存度を低減する実験を行う。
さらに,ラベル付きデータの微調整を行う場合,これらの自己教師付きモデル"forget"ショートカットは,教師付きモデルよりも高速に機能することが分かった。
完全な解決策ではないが、我々の実験は、画像とテキストで訓練された自己教師型モデルが視覚的ショートカット機能に回復力を与えるという説得力のある証拠を提供する。
関連論文リスト
- Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning [57.4893889206655]
本稿では,視覚言語のための合成ショートカットについて紹介する。
我々は,これらの合成ショートカットを含むデータを用いて,スクラッチや微調整で訓練された対照的なVLMが,主にショートカットを表す特徴を学習していることを示す。
論文 参考訳(メタデータ) (2024-02-27T13:50:34Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Automatic Shortcut Removal for Self-Supervised Representation Learning [39.636691159890354]
自己教師付き視覚表現学習では、人間のアノテーションを使わずにラベルを安価に生成できる「テキストタスク」に基づいて特徴抽出器を訓練する。
このような「ショートカット」機能や、その効果を減らすための手書き設計スキームの特定に多くの作業が費やされている。
この仮定は、"lens"ネットワークをトレーニングして、プリテキストタスクのパフォーマンスを最大に低下させる小さな画像変更を行うことによって、一般的なプリテキストタスクやデータセットにまたがって成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-20T16:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。