論文の概要: Evolution of Low-Level and Texture Human-CLIP Alignment
- arxiv url: http://arxiv.org/abs/2508.09814v1
- Date: Wed, 13 Aug 2025 13:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.911972
- Title: Evolution of Low-Level and Texture Human-CLIP Alignment
- Title(参考訳): 低レベル・テクスチャ・ヒューマンCLIPアライメントの進化
- Authors: Pablo Hernández-Cámara, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Jesus Malo, Valero Laparra,
- Abstract要約: 低レベルの人間の画像品質評価との相関は、徐々に低下する前の前期にピークを迎えている。
以上の結果から,CLIPはまず低レベルの視覚的特徴を学習し,低レベルの人間の知覚との整合性を高めることが示唆された。
トレーニングが進むにつれて、モデルはより抽象的な形状に基づく表現へとシフトし、ノイズの堅牢性を改善しながら、低レベルの人間の知覚とのアライメントを減らす。
- 参考スコア(独自算出の注目度): 1.5146068448101746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the training of multi-modal models like CLIP, we observed an intriguing phenomenon: the correlation with low-level human image quality assessments peaks in the early epochs before gradually declining. This study investigates this observation and seeks to understand its causes through two key factors: shape-texture bias alignment and classification accuracy drop under noise. Our findings suggest that CLIP initially learn low-level visual features, enhancing its alignment with low-level human perception but also increasing its sensitivity to noise and its texture bias. As training progresses, the model shifts toward more abstract shape-based representations, improving noise robustness but reducing alignment with low-level human perception. These results suggest that these factors shared an underlying learning mechanism and provide new insights into optimizing the trade-off between perceptual alignment and robustness in vision-language models.
- Abstract(参考訳): CLIPのようなマルチモーダルモデルのトレーニングでは、低レベルの人間の画像品質評価との相関が、徐々に低下する前にピークに達するという興味深い現象が観察された。
本研究は, この観測を考察し, 形状・テクスチャーの偏りのアライメントと, 雑音下での分類精度の低下という2つの要因を通して, その原因を理解することを目的とする。
以上の結果から,CLIPはまず低レベルの視覚的特徴を学習し,低レベルの人間の知覚との整合性を高めつつ,騒音に対する感受性とテクスチャバイアスを高めることが示唆された。
トレーニングが進むにつれて、モデルはより抽象的な形状に基づく表現へとシフトし、ノイズの堅牢性を改善しながら、低レベルの人間の知覚とのアライメントを減らす。
これらの結果は、これらの要因が基礎となる学習メカニズムを共有し、視覚言語モデルにおける知覚的アライメントとロバスト性の間のトレードオフを最適化するための新たな洞察を与えることを示唆している。
関連論文リスト
- Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding [8.822848795081693]
本稿では,ニューラルネットワークを最終的な出力ではなく,視覚エンコーダの中間表現と整合させる新しいコントラスト学習戦略を提案する。
提案手法は,ニューラル・ビジュアル・デコードにおけるスケーリングの法則を効果的に解き明かし,事前学習された視覚バックボーンの容量でデコード性能を予測可能とした。
論文 参考訳(メタデータ) (2026-01-29T16:30:32Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images [1.77513002450736]
網膜-V1大脳皮質のいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャであるPerceptNetは、画像再構成に関連するさまざまなタスクにエンドツーエンドで最適化されている。
以上の結果から,エンコーダの段階は画像歪みに対する人間の知覚的判断と一貫した相関を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-14T08:37:30Z) - Sensory robustness through top-down feedback and neural stochasticity in recurrent vision models [0.9188951403098383]
我々は、トップダウンフィードバックプロジェクションの有無のイメージ分類について、畳み込みリカレントニューラルネットワーク(ConvRNN)を訓練した。
トップダウンフィードバックを持つConvRNNは、ノイズの摂動や敵の攻撃に対して、顕著な速度精度のトレードオフと堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-09T22:51:50Z) - Mitigating Spurious Correlations with Causal Logit Perturbation [22.281052412112263]
本研究では,個々のサンプルに対して因果ロジット摂動を発生させた分類器を訓練するための新しい因果ロジット摂動(CLP)フレームワークを提案する。
このフレームワークは、オンラインのメタ学習ベースの学習アルゴリズムによって最適化され、人間の因果知識を利用して、反事実的および事実的両方の方法でメタデータを増強する。
論文 参考訳(メタデータ) (2025-05-21T08:21:02Z) - Edge-Based Learning for Improved Classification Under Adversarial Noise [0.0]
アドリアルノイズは画像に小さな摂動をもたらし、深層学習モデルを誤分類に導く。
本研究では,画像特徴のトレーニングが頑健性を向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2025-04-25T04:04:59Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement [12.524893323311108]
画像の摂動は、人間が真実のクラスを正確に報告する能力を高めることができることを示す。
本研究では,人間の視覚的学習を,テスト時に人間の分類精度を向上させる方法で強化することを提案する。
論文 参考訳(メタデータ) (2024-12-12T23:57:01Z) - The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Phenomenon (ESP) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - A Neural Collapse Perspective on Feature Evolution in Graph Neural
Networks [44.31777384413466]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの分類タスクでますます人気が高まっている。
本稿では,ノードワイズ分類に着目し,ニューラル崩壊現象のレンズによる特徴進化を考察する。
我々は、「最適」な数学的モデルでさえ、グラフが正確な崩壊を伴う最小値を持つためには厳密な構造条件に従う必要があることを示した。
論文 参考訳(メタデータ) (2023-07-04T23:03:21Z) - Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds [44.79535333220044]
近年の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されている。
本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,次いで,一連の幾何学的測度を体系的に提案する。
論文 参考訳(メタデータ) (2023-03-22T04:49:23Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。