論文の概要: VFA: Vision Frequency Analysis of Foundation Models and Human
- arxiv url: http://arxiv.org/abs/2409.05817v1
- Date: Mon, 9 Sep 2024 17:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:46:22.155886
- Title: VFA: Vision Frequency Analysis of Foundation Models and Human
- Title(参考訳): VFA:基礎モデルと人間の視覚周波数解析
- Authors: Mohammad-Javad Darvishi-Bayazi, Md Rifat Arefin, Jocelyn Faubert, Irina Rish,
- Abstract要約: 機械学習モデルは現実世界のシナリオでは分散シフトに苦しむが、人間は堅牢な適応を示す。
大規模コンピュータビジョンモデルの特徴が人間の能力や頑健さにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 10.112417527529868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models often struggle with distribution shifts in real-world scenarios, whereas humans exhibit robust adaptation. Models that better align with human perception may achieve higher out-of-distribution generalization. In this study, we investigate how various characteristics of large-scale computer vision models influence their alignment with human capabilities and robustness. Our findings indicate that increasing model and data size and incorporating rich semantic information and multiple modalities enhance models' alignment with human perception and their overall robustness. Our empirical analysis demonstrates a strong correlation between out-of-distribution accuracy and human alignment.
- Abstract(参考訳): 機械学習モデルは現実世界のシナリオでは分散シフトに苦しむが、人間は堅牢な適応を示す。
人間の知覚とよりよく一致したモデルは、より高い分布外一般化を達成できるかもしれない。
本研究では,大規模コンピュータビジョンモデルの特徴が人間の能力や頑健さにどのように影響するかを検討する。
本研究は,モデルとデータサイズを増大させ,リッチな意味情報と複数のモダリティを取り入れることで,モデルと人間の知覚との整合性や全体的ロバスト性を高めることを示唆する。
我々の経験的分析は、分布外精度と人間のアライメントとの間に強い相関関係を示す。
関連論文リスト
- Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - MONAL: Model Autophagy Analysis for Modeling Human-AI Interactions [11.972017738888825]
大規模モデルの自己消費説明のためのモデルオートファジー分析(MONAL)を提案する。
MONALは、人間とAIシステム間の交換における人為的な情報の抑制を解明するために、2つの異なる自己食ループを使用している。
生成したモデルのキャパシティを,情報作成者とディスセミネータの両方として評価する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - Towards Human-like Perception: Learning Structural Causal Model in
Heterogeneous Graph [26.361815957385417]
本研究では,HG-SCM(構造因果モデルとしての異種グラフ)という新しい解を提案する。
グラフスキーマから派生したセマンティクスに基づく無知変数の構築と、高度な因果発見技術を導入して、これらの変数間のタスクレベルの因果関係を自動的に学習する。
HG-SCMは標準偏差を最小限に抑え、予測力と一般化性の両方の観点からその有効性と優位性を実証した。
論文 参考訳(メタデータ) (2023-12-10T04:34:35Z) - Robust Computer Vision in an Ever-Changing World: A Survey of Techniques
for Tackling Distribution Shifts [20.17397328893533]
AIアプリケーションは、ますます一般大衆に注目を集めている。
コンピュータビジョンモデルに関する理論的な仮定と、それらのモデルが現実世界に展開する際に直面する現実との間には、顕著なギャップがある。
このギャップの重要な理由の1つは、分散シフトとして知られる難しい問題である。
論文 参考訳(メタデータ) (2023-12-03T23:40:12Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Adaptive Contextual Perception: How to Generalize to New Backgrounds and
Ambiguous Objects [75.15563723169234]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。
1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。
生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文 参考訳(メタデータ) (2023-06-09T15:29:54Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。
我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。
アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文 参考訳(メタデータ) (2021-11-29T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。