論文の概要: Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects
- arxiv url: http://arxiv.org/abs/2406.15955v2
- Date: Wed, 13 Nov 2024 20:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:55.576597
- Title: Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects
- Title(参考訳): 知覚のドアを超えて:視覚変換器は物体間の関係を表現する
- Authors: Michael A. Lepori, Alexa R. Tartaglini, Wai Keen Vong, Thomas Serre, Brenden M. Lake, Ellie Pavlick,
- Abstract要約: ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
- 参考スコア(独自算出の注目度): 30.09778169168547
- License:
- Abstract: Though vision transformers (ViTs) have achieved state-of-the-art performance in a variety of settings, they exhibit surprising failures when performing tasks involving visual relations. This begs the question: how do ViTs attempt to perform tasks that require computing visual relations between objects? Prior efforts to interpret ViTs tend to focus on characterizing relevant low-level visual features. In contrast, we adopt methods from mechanistic interpretability to study the higher-level visual algorithms that ViTs use to perform abstract visual reasoning. We present a case study of a fundamental, yet surprisingly difficult, relational reasoning task: judging whether two visual entities are the same or different. We find that pretrained ViTs fine-tuned on this task often exhibit two qualitatively different stages of processing despite having no obvious inductive biases to do so: 1) a perceptual stage wherein local object features are extracted and stored in a disentangled representation, and 2) a relational stage wherein object representations are compared. In the second stage, we find evidence that ViTs can learn to represent somewhat abstract visual relations, a capability that has long been considered out of reach for artificial neural networks. Finally, we demonstrate that failures at either stage can prevent a model from learning a generalizable solution to our fairly simple tasks. By understanding ViTs in terms of discrete processing stages, one can more precisely diagnose and rectify shortcomings of existing and future models.
- Abstract(参考訳): 視覚変換器(ViT)は様々な環境で最先端のパフォーマンスを達成しているが、視覚的関係を含むタスクを実行する際に驚くほどの失敗を見せている。
ViTはどのようにしてオブジェクト間の視覚的関係の計算を必要とするタスクを実行しようとするのか?
ViTを解釈する以前の取り組みは、関連する低レベルの視覚的特徴を特徴づけることに集中する傾向があった。
対照的に、ViTが抽象的な視覚的推論を行うために使用する高レベルな視覚的アルゴリズムを研究するために、機械論的解釈可能性の手法を採用する。
本稿では,2つの視覚的実体が同一であるか異なるのかを判断する,基本的な,しかし驚くほど難しい,関係推論タスクのケーススタディを示す。
私たちは、このタスクで微調整された事前訓練されたViTは、明らかに誘導バイアスがないにもかかわらず、2つの質的に異なる処理段階を示すことが多いことに気付きました。
1) 局所対象物の特徴を抽出し、歪んだ表現に記憶する知覚段階
2)オブジェクト表現の比較を行う関係段階。
第2段階では、ViTsがある程度抽象的な視覚関係を表現することができるという証拠が見つかる。
最後に、各段階での障害は、モデルが極めて単純なタスクに対して一般化可能な解を学ぶのを防ぐことができることを実証する。
離散処理段階の観点からViTを理解することで、既存のモデルと将来のモデルの欠点をより正確に診断し、修正することができる。
関連論文リスト
- ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Vision Transformer Visualization: What Neurons Tell and How Neurons
Behave? [33.87454837848252]
視覚変換器(ViTs)をまたいだ視覚情報や特徴埋め込みの公開を支援する効果的な可視化手法を提案する。
提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目して,ViTの計算過程から逸脱する。
次に、レイヤ間を効果的に可視化する厳密なフレームワークを開発し、ViTsフィルタの効果を明らかにし、オブジェクトパッチに対するグループ化/クラスタリングの挙動を明らかにする。
論文 参考訳(メタデータ) (2022-10-14T08:56:24Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。