Fugu-MT 論文翻訳(概要): Look Beyond Saliency: Low-Attention Guided Dual Encoding for Video Semantic Search

論文の概要: Look Beyond Saliency: Low-Attention Guided Dual Encoding for Video Semantic Search

arxiv url: http://arxiv.org/abs/2605.06229v1
Date: Thu, 07 May 2026 13:21:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.835646
Title: Look Beyond Saliency: Low-Attention Guided Dual Encoding for Video Semantic Search
Title（参考訳）: ビデオセマンティック検索のための低アテンションなデュアルエンコーディング
Authors: Faisal Aljehrai, Mohammed A. Alkhrashi, Alreem Almuhrij, Sarah Abuhimed, Noorh Aldossary, Abdullah Aldwyish, Raied Aljadaany, Huda Alamri, Muhammad Kamran J Khan,
Abstract要約: 本稿では,これらの見過ごされた領域を明示的にキャプチャし,ハイライトする逆注意埋め込み機構を提案する。従来の視覚的埋め込みと逆注意埋め込みを組み合わせることで,追加のトレーニングを伴わずに意味検索性能を大幅に向上させる。
参考スコア（独自算出の注目度）: 0.34672135944144933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video semantic search in densely crowded scenes remains a challenging task due to visual encoders tendency to prioritize salient foreground regions while neglecting contextually important, background areas. We propose an Inverse Attention Embedding mechanism that explicitly captures and highlights these overlooked regions. By combining inverse attention embeddings with traditional visual embeddings, our method significantly enhances semantic retrieval performance without additional training. Initial experiments and ablation studies demonstrate promising improvements over existing approaches in recall for video semantic search in crowded environments.
Abstract（参考訳）: 密集したシーンにおけるビデオセマンティック検索は、文脈的に重要な背景領域を無視しながら、前景領域を優先する視覚エンコーダの傾向があるため、依然として困難な課題である。本稿では,これらの見過ごされた領域を明示的にキャプチャし,ハイライトする逆注意埋め込み機構を提案する。従来の視覚的埋め込みと逆注意埋め込みを組み合わせることで,追加のトレーニングを伴わずに意味検索性能を大幅に向上させる。最初の実験とアブレーション研究は、混み合った環境におけるビデオセマンティック検索のためのリコールにおける既存のアプローチよりも有望な改善を示す。

関連論文リスト

Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification [1.409283414986451]
背景セマンティクスはReIDのフォアグラウンドセマンティクスと同じくらい重要であると我々は主張する。本稿では,フォアグラウンドと背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-03T05:38:22Z)
Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives [93.31112073070906]
既存の方法はビデオ検索性能を向上させるために大規模な事前学習に依存している。そこで我々は,より微粒な特徴を学習し,アライメントを改善するための新しいフレームワークを提案する。追加のトレーニングなしでパフォーマンスを改善するための推論パイプラインも導入しています。
論文参考訳（メタデータ） (2025-08-20T16:03:56Z)
StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing [40.50917266880829]
我々は,T2Vモデルにおける複数の被験者間のセマンティックアライメント,動作,テキストプロンプトを改善するための,プラグイン・アンド・プレイ方式であるtextbfStarVidを提案する。 StarVidはまず、テキストプロンプトに基づく2段階の運動軌跡計画に大規模言語モデル(LLM)の空間的推論機能を利用する。
論文参考訳（メタデータ） (2024-09-23T17:56:03Z)
Autogenic Language Embedding for Coherent Point Tracking [19.127052469203612]
我々は,言語埋め込みを利用した新しいアプローチを導入し,同一オブジェクトに関連するフレーム単位の視覚的特徴のコヒーレンスを高める。既存の視覚言語スキームとは異なり、本手法は専用のマッピングネットワークを通じて視覚的特徴からテキスト埋め込みを学習する。提案手法は,映像中の軌跡の追跡精度を著しく向上させる。
論文参考訳（メタデータ） (2024-07-30T11:02:45Z)
Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。 CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文参考訳（メタデータ） (2023-09-24T00:05:39Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2021-08-19T02:14:36Z)
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文参考訳（メタデータ） (2021-03-23T06:42:49Z)
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文参考訳（メタデータ） (2020-08-06T04:09:03Z)
Exploiting Visual Semantic Reasoning for Video-Text Retrieval [14.466809435818984]
フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。ランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い、意味的関係に関わる領域の特徴を生成する。推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。
論文参考訳（メタデータ） (2020-06-16T02:56:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。