論文の概要: Evolution of Low-Level and Texture Human-CLIP Alignment
- arxiv url: http://arxiv.org/abs/2508.09814v1
- Date: Wed, 13 Aug 2025 13:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.911972
- Title: Evolution of Low-Level and Texture Human-CLIP Alignment
- Title(参考訳): 低レベル・テクスチャ・ヒューマンCLIPアライメントの進化
- Authors: Pablo Hernández-Cámara, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Jesus Malo, Valero Laparra,
- Abstract要約: 低レベルの人間の画像品質評価との相関は、徐々に低下する前の前期にピークを迎えている。
以上の結果から,CLIPはまず低レベルの視覚的特徴を学習し,低レベルの人間の知覚との整合性を高めることが示唆された。
トレーニングが進むにつれて、モデルはより抽象的な形状に基づく表現へとシフトし、ノイズの堅牢性を改善しながら、低レベルの人間の知覚とのアライメントを減らす。
- 参考スコア(独自算出の注目度): 1.5146068448101746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the training of multi-modal models like CLIP, we observed an intriguing phenomenon: the correlation with low-level human image quality assessments peaks in the early epochs before gradually declining. This study investigates this observation and seeks to understand its causes through two key factors: shape-texture bias alignment and classification accuracy drop under noise. Our findings suggest that CLIP initially learn low-level visual features, enhancing its alignment with low-level human perception but also increasing its sensitivity to noise and its texture bias. As training progresses, the model shifts toward more abstract shape-based representations, improving noise robustness but reducing alignment with low-level human perception. These results suggest that these factors shared an underlying learning mechanism and provide new insights into optimizing the trade-off between perceptual alignment and robustness in vision-language models.
- Abstract(参考訳): CLIPのようなマルチモーダルモデルのトレーニングでは、低レベルの人間の画像品質評価との相関が、徐々に低下する前にピークに達するという興味深い現象が観察された。
本研究は, この観測を考察し, 形状・テクスチャーの偏りのアライメントと, 雑音下での分類精度の低下という2つの要因を通して, その原因を理解することを目的とする。
以上の結果から,CLIPはまず低レベルの視覚的特徴を学習し,低レベルの人間の知覚との整合性を高めつつ,騒音に対する感受性とテクスチャバイアスを高めることが示唆された。
トレーニングが進むにつれて、モデルはより抽象的な形状に基づく表現へとシフトし、ノイズの堅牢性を改善しながら、低レベルの人間の知覚とのアライメントを減らす。
これらの結果は、これらの要因が基礎となる学習メカニズムを共有し、視覚言語モデルにおける知覚的アライメントとロバスト性の間のトレードオフを最適化するための新たな洞察を与えることを示唆している。
関連論文リスト
- Sensory robustness through top-down feedback and neural stochasticity in recurrent vision models [0.9188951403098383]
我々は、トップダウンフィードバックプロジェクションの有無のイメージ分類について、畳み込みリカレントニューラルネットワーク(ConvRNN)を訓練した。
トップダウンフィードバックを持つConvRNNは、ノイズの摂動や敵の攻撃に対して、顕著な速度精度のトレードオフと堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-09T22:51:50Z) - Mitigating Spurious Correlations with Causal Logit Perturbation [22.281052412112263]
本研究では,個々のサンプルに対して因果ロジット摂動を発生させた分類器を訓練するための新しい因果ロジット摂動(CLP)フレームワークを提案する。
このフレームワークは、オンラインのメタ学習ベースの学習アルゴリズムによって最適化され、人間の因果知識を利用して、反事実的および事実的両方の方法でメタデータを増強する。
論文 参考訳(メタデータ) (2025-05-21T08:21:02Z) - Edge-Based Learning for Improved Classification Under Adversarial Noise [0.0]
アドリアルノイズは画像に小さな摂動をもたらし、深層学習モデルを誤分類に導く。
本研究では,画像特徴のトレーニングが頑健性を向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2025-04-25T04:04:59Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement [12.524893323311108]
画像の摂動は、人間が真実のクラスを正確に報告する能力を高めることができることを示す。
本研究では,人間の視覚的学習を,テスト時に人間の分類精度を向上させる方法で強化することを提案する。
論文 参考訳(メタデータ) (2024-12-12T23:57:01Z) - The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Phenomenon (ESP) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - A Neural Collapse Perspective on Feature Evolution in Graph Neural
Networks [44.31777384413466]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの分類タスクでますます人気が高まっている。
本稿では,ノードワイズ分類に着目し,ニューラル崩壊現象のレンズによる特徴進化を考察する。
我々は、「最適」な数学的モデルでさえ、グラフが正確な崩壊を伴う最小値を持つためには厳密な構造条件に従う必要があることを示した。
論文 参考訳(メタデータ) (2023-07-04T23:03:21Z) - Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds [44.79535333220044]
近年の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されている。
本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,次いで,一連の幾何学的測度を体系的に提案する。
論文 参考訳(メタデータ) (2023-03-22T04:49:23Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。