論文の概要: What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric
- arxiv url: http://arxiv.org/abs/2604.08494v1
- Date: Thu, 09 Apr 2026 17:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.049367
- Title: What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric
- Title(参考訳): VLMとNLPによるセマンティック・スキャンパスの類似性
- Authors: Mohamed Amine Kerkouri, Marouane Tliba, Bin Wang, Aladine Chetouani, Ulas Bagci, Alessandro Bruno,
- Abstract要約: 視覚言語モデルと視線追跡分析を統合した意味的スキャンパス類似性フレームワークを提案する。
意味的類似性は、埋め込みベースおよび語彙的NLPメトリクスを使用して計算される。
自由視眼球追跡データの実験では、意味的類似性は幾何学的アライメントから部分的に独立なばらつきを捉えていることが示されている。
- 参考スコア(独自算出の注目度): 50.699179933343686
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scanpath similarity metrics are central to eye-movement research, yet existing methods predominantly evaluate spatial and temporal alignment while neglecting semantic equivalence between attended image regions. We present a semantic scanpath similarity framework that integrates vision-language models (VLMs) into eye-tracking analysis. Each fixation is encoded under controlled visual context (patch-based and marker-based strategies) and transformed into concise textual descriptions, which are aggregated into scanpath-level representations. Semantic similarity is then computed using embedding-based and lexical NLP metrics and compared against established spatial measures, including MultiMatch and DTW. Experiments on free-viewing eye-tracking data demonstrate that semantic similarity captures partially independent variance from geometric alignment, revealing cases of high content agreement despite spatial divergence. We further analyze the impact of contextual encoding on description fidelity and metric stability. Our findings suggest that multimodal foundation models enable interpretable, content-aware extensions of classical scanpath analysis, providing a complementary dimension for gaze research within the ETRA community.
- Abstract(参考訳): スキャンパス類似度測定は眼球運動研究の中心であるが、既存の手法は、出席する画像領域間の意味的同値性を無視しながら、主に空間的・時間的アライメントを評価する。
本稿では視覚言語モデル(VLM)を眼球追跡分析に組み込む意味的スキャンパス類似性フレームワークを提案する。
各固定は、制御された視覚コンテキスト(パッチベースおよびマーカーベースの戦略)で符号化され、簡潔なテキスト記述に変換され、スキャンパスレベルの表現に集約される。
意味的類似性は埋め込みベースおよび語彙的NLPメトリクスを用いて計算され、MultiMatchやDTWといった既存の空間測度と比較される。
自由視眼球追跡データを用いた実験では、意味的類似性は幾何学的アライメントから部分的に独立なばらつきを捉え、空間的ばらつきに拘わらず、高い内容の一致を示す。
さらに、文脈エンコーディングが記述の忠実度とメートル法安定性に与える影響を解析する。
以上の結果から,マルチモーダル基礎モデルにより,古典的スキャンパス解析の解釈可能な内容認識拡張が可能となり,ETRAコミュニティにおける視線研究の補完的な次元が期待できると考えられた。
関連論文リスト
- Characterizing Human Semantic Navigation in Concept Production as Trajectories in Embedding Space [0.0]
組込み空間を通したナビゲーションとして,概念生産を表現したフレームワークを導入する。
本研究では,累積埋め込みに基づく参加者固有の意味軌道を構築し,幾何学的および動的メトリクスを抽出する。
異なる言語にまたがる4つのデータセット上で、異なるプロパティ生成タスクにまたがるフレームワークを評価する。
論文 参考訳(メタデータ) (2026-02-05T18:23:04Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis [21.380034877048644]
双曲空間における意味階層のモデル化を導くために,テキスト記述から知識を統合する新しい手法であるHyperPathを提案する。
本手法は,病理視覚言語基盤モデルから抽出した視覚的特徴とテキスト的特徴を双曲空間に適用する。
提案手法は,WSI解析におけるハイパーボリック埋め込みの可能性を強調し,既存の手法と比較してタスク間での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-19T15:30:33Z) - Asymmetric Visual Semantic Embedding Framework for Efficient Vision-Language Alignment [25.209622555403527]
類似度計算のためのテキスト入力に適した画像の各領域から特徴を動的に選択する,非対称ビジュアルセマンティック埋め込み (AVSE) というフレームワークを提案する。
AVSEは2つのモードのメタセマンティック埋め込みの最適マッチングを見つけることで視覚的意味的類似性を計算する。
提案するAVSEモデルは,大規模なMS-COCOおよびFlickr30Kデータセット上で広範囲に評価されている。
論文 参考訳(メタデータ) (2025-03-10T06:38:41Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。