論文の概要: Object Referring-Guided Scanpath Prediction with Perception-Enhanced Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.20361v1
- Date: Wed, 22 Apr 2026 09:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.055598
- Title: Object Referring-Guided Scanpath Prediction with Perception-Enhanced Vision-Language Models
- Title(参考訳): 知覚強調視覚言語モデルを用いた物体参照誘導走査パス予測
- Authors: Rong Quan, Yantao Lai, Dong Liang, Jie Qin,
- Abstract要約: Object Referring-Guided Scanpath Prediction (ORSP) は、対象を記述した言語的記述に従って、視覚的な場面で特定の対象を探索する際、人間の注意走査パスを予測することを目的としている。
本稿では,視覚言語モデル(VLM)を用いて,入力画像と参照表現から視覚的特徴表現と言語的特徴表現を抽出・融合する新しいモデルであるScanVLAを提案する。
我々は,ScanVLAがオブジェクト参照下で既存のスキャンパス予測手法を大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 36.22966775131642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Referring-guided Scanpath Prediction (ORSP) aims to predict the human attention scanpath when they search for a specific target object in a visual scene according to a linguistic description describing the object. Multimodal information fusion is a key point of ORSP. Therefore, we propose a novel model, ScanVLA, to first exploit a Vision-Language Model (VLM) to extract and fuse inherently aligned visual and linguistic feature representations from the input image and referring expression. Next, to enhance the ScanVLA's perception of fine-grained positional information, we not only propose a novel History Enhanced Scanpath Decoder (HESD) that directly takes historical fixations' position information as input to help predict a more reasonable position for the current fixation, but also adopt a frozen Segmentation LoRA as an auxiliary component to help localize the referred object more precisely, which improves the scanpath prediction task without incurring additional large computational and time costs. Extensive experimental results demonstrate that ScanVLA can significantly outperform existing scanpath prediction methods under object referring.
- Abstract(参考訳): Object Referring-Guided Scanpath Prediction (ORSP) は、対象を記述した言語的記述に従って、視覚的な場面で特定の対象を探索する際、人間の注意走査パスを予測することを目的としている。
マルチモーダル情報融合はORSPのキーポイントである。
そこで本稿では,まず視覚言語モデル(VLM)を用いて,視覚的特徴表現と言語的特徴表現を入力画像と参照表現から抽出し,融合する新しいモデルであるScanVLAを提案する。
次に,ScanVLAの微粒な位置情報に対する認識を高めるために,従来の固定位置情報を入力として直接取り込んで,より合理的な位置を推定する新しいヒストリー拡張スキャンパスデコーダ(HESD)を提案するとともに,凍結したセグメンテーションLORAを補助成分として採用することにより,参照対象をより正確にローカライズし,さらに大きな計算や時間コストを発生させることなく,スキャンパス予測タスクを改善する。
ScanVLAは、オブジェクト参照下で既存のスキャンパス予測手法を大幅に上回ることを示した。
関連論文リスト
- Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。