論文の概要: Unified Attention Modeling for Efficient Free-Viewing and Visual Search via Shared Representations
- arxiv url: http://arxiv.org/abs/2506.02764v1
- Date: Tue, 03 Jun 2025 11:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.413809
- Title: Unified Attention Modeling for Efficient Free-Viewing and Visual Search via Shared Representations
- Title(参考訳): 共有表現による効率的な自由視聴と視覚検索のための統一注意モデル
- Authors: Fatma Youssef Mohammed, Kostas Alexis,
- Abstract要約: 自由視聴と視覚検索が共通の表現を効率的に共有できることを示す。
この転送により、GFLOPの92.29%、トレーニング可能なパラメータの31.23%の計算コストが削減される。
- 参考スコア(独自算出の注目度): 10.982521876026281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational human attention modeling in free-viewing and task-specific settings is often studied separately, with limited exploration of whether a common representation exists between them. This work investigates this question and proposes a neural network architecture that builds upon the Human Attention transformer (HAT) to test the hypothesis. Our results demonstrate that free-viewing and visual search can efficiently share a common representation, allowing a model trained in free-viewing attention to transfer its knowledge to task-driven visual search with a performance drop of only 3.86% in the predicted fixation scanpaths, measured by the semantic sequence score (SemSS) metric which reflects the similarity between predicted and human scanpaths. This transfer reduces computational costs by 92.29% in terms of GFLOPs and 31.23% in terms of trainable parameters.
- Abstract(参考訳): 自由視点とタスク固有の設定における計算的人間の注意モデリングは、しばしば別々に研究され、それらの間に共通の表現が存在するかどうかが限定される。
本研究では、この疑問を調査し、仮説をテストするためのヒューマンアテンショントランスフォーマー(HAT)の上に構築されたニューラルネットワークアーキテクチャを提案する。
この結果から,自由視聴と視覚探索が共通表現を効率的に共有できることが示され,その知識をタスク駆動型ビジュアルサーチに伝達するモデルが,予測された固定スカンパスの3.86%に留まり,予測されたスキャンパスと人間のスキャンパスの類似性を反映したセマンティックシークエンススコア(SemSS)によって測定された。
この転送により、GFLOPの92.29%、トレーニング可能なパラメータの31.23%の計算コストが削減される。
関連論文リスト
- Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement [12.524893323311108]
画像の摂動は、人間が真実のクラスを正確に報告する能力を高めることができることを示す。
本研究では,人間の視覚的学習を,テスト時に人間の分類精度を向上させる方法で強化することを提案する。
論文 参考訳(メタデータ) (2024-12-12T23:57:01Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors [2.524526956420465]
CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。
NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
論文 参考訳(メタデータ) (2023-05-21T07:24:50Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。
擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。
本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文 参考訳(メタデータ) (2020-06-05T16:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。