論文の概要: ITSELF: Attention Guided Fine-Grained Alignment for Vision-Language Retrieval
- arxiv url: http://arxiv.org/abs/2601.01024v1
- Date: Sat, 03 Jan 2026 01:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.949254
- Title: ITSELF: Attention Guided Fine-Grained Alignment for Vision-Language Retrieval
- Title(参考訳): ITSELF:視覚言語検索のための細粒度アライメント注意ガイド
- Authors: Tien-Huy Nguyen, Huu-Loc Tran, Thanh Duc Ngo,
- Abstract要約: 我々は,暗黙的局所アライメントのための注意誘導フレームワークITSELFを紹介する。
GRAB(Guarded Representation with Attentive Bank)はその中核として、モデル自身の注意を高可用性トークンの注意力銀行に変換する。
また,ロバスト選択のための多層アテンション(MARS)を導入し,各層に注意を集中させ,多様性を意識したトップk選択を行う。
- 参考スコア(独自算出の注目度): 7.809330758164896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) have rapidly advanced and show strong promise for text-based person search (TBPS), a task that requires capturing fine-grained relationships between images and text to distinguish individuals. Previous methods address these challenges through local alignment, yet they are often prone to shortcut learning and spurious correlations, yielding misalignment. Moreover, injecting prior knowledge can distort intra-modality structure. Motivated by our finding that encoder attention surfaces spatially precise evidence from the earliest training epochs, and to alleviate these issues, we introduceITSELF, an attention-guided framework for implicit local alignment. At its core, Guided Representation with Attentive Bank (GRAB) converts the model's own attention into an Attentive Bank of high-saliency tokens and applies local objectives on this bank, learning fine-grained correspondences without extra supervision. To make the selection reliable and non-redundant, we introduce Multi-Layer Attention for Robust Selection (MARS), which aggregates attention across layers and performs diversity-aware top-k selection; and Adaptive Token Scheduler (ATS), which schedules the retention budget from coarse to fine over training, preserving context early while progressively focusing on discriminative details. Extensive experiments on three widely used TBPS benchmarks showstate-of-the-art performance and strong cross-dataset generalization, confirming the effectiveness and robustness of our approach without additional prior supervision. Our project is publicly available at https://trhuuloc.github.io/itself
- Abstract(参考訳): 視覚言語モデル(VLM)は急速に進歩し、個人を識別するために画像とテキストのきめ細かい関係を捉えることを必要とするテキストベースの人物探索(TBPS)を強く約束している。
従来の手法では、これらの課題を局所的なアライメントを通じて解決するが、学習と急激な相関をショートカットし、不適応をもたらすことが多い。
さらに、事前知識を注入することで、モダリティ内構造を歪ませることができる。
エンコーダのアテンションが初期の訓練エポックから空間的に正確なエビデンスを表面化し,これらの問題を緩和するために,暗黙の局所アライメントのための注意誘導フレームワークITSELFを導入した。
GRAB(Guid Representation with Attentive Bank)の中核は、モデル自身の注意を高信頼性トークンの注意銀行に変換し、この銀行に局所的な目的を適用して、余分な監督なしにきめ細かい対応を学習する。
この選択を信頼性と非冗長性にするために、階層をまたいだ注意を集約し、多様性を意識したトップk選択を行うマルチレイヤー選択(MARS)と、適応トークンスケジューリング(ATS)を導入する。
広範に使用されているTBPSベンチマークの大規模な実験は、最先端の性能と強力なクロスデータセットの一般化を示し、追加の事前監視なしに我々のアプローチの有効性と堅牢性を確認した。
私たちのプロジェクトはhttps://trhuuloc.github.io/itselfで公開されています。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors [3.9039205692819547]
本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
論文 参考訳(メタデータ) (2025-09-27T04:37:26Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。