論文の概要: What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.16840v1
- Date: Tue, 17 Mar 2026 17:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.459268
- Title: What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers
- Title(参考訳): DINOが見たもの:ALiBi位置符号化は視覚変換器の位置バイアスを減少させる
- Authors: Moritz Pawlowsky, Antonis Vamvakeros, Alexander Weiss, Anja Bielefeld, Samuel J. Cooper, Ronan Docherty,
- Abstract要約: 視覚変換器(ViT)は、多くの下流タスクに有用なリッチな表現を学習する。
アーキテクチャ上の選択(位置エンコーディングなど)は、これらのモデルに意味的コンテンツとは無関係に位置バイアスやアーチファクトを表示します。
本研究では, 線形探索によるVTの位置偏差について検討し, 様々な目的や位置エンコーディングにまたがって存在することを明らかにする。
これらのモデルが望ましい一般的な意味を保ち、複雑な顕微鏡画像のトレーニング可能なセグメンテーションにおいて、その不偏な特徴をうまく利用できることを実証する。
- 参考スコア(独自算出の注目度): 35.62326758883996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) - especially feature foundation models like DINOv2 - learn rich representations useful for many downstream tasks. However, architectural choices (such as positional encoding) can lead to these models displaying positional biases and artefacts independent of semantic content. This makes zero-shot adaption difficult in fields like material science, where images are often cross-sections of homogeneous microstructure (i.e. having no preferred direction). In this work, we investigate the positional bias in ViTs via linear probing, finding it present across a range of objectives and positional encodings, and subsequently reduce it by finetuning models to use ALiBi relative positional encoding. We demonstrate that these models retain desirable general semantics and their unbiased features can be used successfully in trainable segmentation of complex microscopy images.
- Abstract(参考訳): ビジョントランスフォーマー(ViT) — 特にDINOv2のような機能基盤モデル — は、多くの下流タスクに有用なリッチな表現を学びます。
しかし、アーキテクチャ上の選択(位置符号化など)は、これらのモデルに意味的コンテンツとは無関係に位置バイアスや成果物を表示する。
これにより、物質科学のような分野ではゼロショット適応が困難となり、画像はしばしば均質なミクロ構造(すなわち、好ましい方向を持たない)の断面である。
本研究では, 線形探索によりVTの位置バイアスを調査し, 様々な目的や位置エンコーディングにまたがる位置バイアスを検出し, その後, ALiBi の相対的位置エンコーディングを用いた微調整モデルにより低減する。
これらのモデルが望ましい一般的な意味を保ち、複雑な顕微鏡画像のトレーニング可能なセグメンテーションにおいて、その不偏な特徴をうまく利用できることを実証する。
関連論文リスト
- Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。
タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。
画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文 参考訳(メタデータ) (2025-03-24T19:56:02Z) - Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings [3.0559252110342703]
本研究では、位置情報を明示的な位置符号化を用いることなく、どのように保存できるのかという新たな仮説を提案し、検討する。
近傍の埋め込みは、遠くの埋め込みよりも互いに似ており、変圧器はトークンの位置を再構築することができる。
論文 参考訳(メタデータ) (2024-12-30T03:35:41Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Vision Transformers provably learn spatial structure [34.61885883486938]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
論文 参考訳(メタデータ) (2022-10-13T19:53:56Z) - Transformer Language Models without Positional Encodings Still Learn
Positional Information [45.42248458957122]
明確な位置エンコーディングのないトランスフォーマー言語モデルは、標準モデルと競合する。
因果的注意により、各トークンが出席できる前任者の数を推測することができ、従って絶対的な位置を近似することができると推測する。
論文 参考訳(メタデータ) (2022-03-30T19:37:07Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Positional Encoding as Spatial Inductive Bias in GANs [97.6622154941448]
SinGANは限られた有効な受容器分野にもかかわらず内部パッチ配分の学習の印象的な機能を示します。
本研究では,発電機のパディングゼロ時における暗黙的位置符号化によって,このような能力が大幅にもたらされることを示した。
本稿では,新しいマルチスケール学習戦略を提案し,その効果を最新型無条件発電機stylegan2で実証する。
論文 参考訳(メタデータ) (2020-12-09T18:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。