論文の概要: Evaluating Keyframe Layouts for Visual Known-Item Search in Homogeneous Collections
- arxiv url: http://arxiv.org/abs/2510.04396v1
- Date: Sun, 05 Oct 2025 23:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.628575
- Title: Evaluating Keyframe Layouts for Visual Known-Item Search in Homogeneous Collections
- Title(参考訳): 均質コレクションにおける視覚的未知項目探索のためのキーフレームレイアウトの評価
- Authors: Bastian Jäckl, Jiří Kruchina, Lucas Joos, Daniel A. Keim, Ladislav Peška, Jakub Lokoč,
- Abstract要約: 検索グリッド内のキーフレーム配置は、ブラウジングの有効性とユーザ効率に大きな影響を与えるが、まだ未調査である。
ビデオグループレイアウトが最も効率的であるのに対して、4列のランクモードグリッドは最も正確であることを示す。
これらの知見は,上位商品の位置を整理・グループ化しながら保存するハイブリッドデザインを動機付け,ビデオ検索以外のグリッド検索のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 5.006685254861515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal deep-learning models power interactive video retrieval by ranking keyframes in response to textual queries. Despite these advances, users must still browse ranked candidates manually to locate a target. Keyframe arrangement within the search grid highly affects browsing effectiveness and user efficiency, yet remains underexplored. We report a study with 49 participants evaluating seven keyframe layouts for the Visual Known-Item Search task. Beyond efficiency and accuracy, we relate browsing phenomena, such as overlooks, to layout characteristics. Our results show that a video-grouped layout is the most efficient, while a four-column, rank-preserving grid achieves the highest accuracy. Sorted grids reveal potentials and trade-offs, enabling rapid scanning of uninteresting regions but down-ranking relevant targets to less prominent positions, delaying first arrival times and increasing overlooks. These findings motivate hybrid designs that preserve positions of top-ranked items while sorting or grouping the remainder, and offer guidance for searching in grids beyond video retrieval.
- Abstract(参考訳): マルチモーダルディープラーニングモデルは、テキストクエリに応答してキーフレームをランク付けすることで、インタラクティブなビデオ検索を利用する。
これらの進歩にもかかわらず、ユーザはターゲットを見つけるために、手動でランク付けされた候補者を閲覧する必要がある。
検索グリッド内のキーフレーム配置は、ブラウジングの有効性とユーザ効率に大きな影響を与えるが、まだ未調査である。
49名の被験者を対象に,Visual Known-Item Searchタスクの7つのキーフレームレイアウトの評価を行った。
効率と精度の他に、見落としなどの閲覧現象とレイアウト特性を関連づける。
その結果,ビデオグループレイアウトが最も効率的であるのに対して,4列のランク保存グリッドは最も精度が高いことがわかった。
ソートグリッドはポテンシャルとトレードオフを明らかにし、興味のない地域を素早くスキャンするが、関連するターゲットを低い位置まで格下げし、最初の到着時間を遅らせ、見落としを増大させる。
これらの知見は,上位項目の位置を整理・グループ化しながら保存し,動画検索以外のグリッドを探索するためのガイダンスを提供するハイブリッドデザインを動機付けている。
関連論文リスト
- Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Interactive Video Corpus Moment Retrieval using Reinforcement Learning [35.38916770127218]
本稿では,ユーザからのフィードバックから長期学習を行うことで,数ラウンド以内で検索対象に到達することを目的とした強化学習による課題に対処する。
我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。
論文 参考訳(メタデータ) (2023-02-19T09:48:23Z) - Deep Reinforcement Agent for Efficient Instant Search [14.086339486783018]
本稿では,関連する文書を検索する上で,意味的により健全なトークンを識別することで,負荷問題に対処することを提案する。
我々は、検索エンジンと直接対話し、単語の重要性を予測する強化エージェントを訓練する。
トリガーサーチ数とシステム性能のトレードオフを研究するために,新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-17T22:47:15Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - Zero-Shot Heterogeneous Transfer Learning from Recommender Systems to
Cold-Start Search Retrieval [30.95373255143698]
本稿では,学習知識を推薦システムコンポーネントから伝達し,コンテンツプラットフォームの検索コンポーネントを改善するZero-Shot Heterogeneous Transfer Learningフレームワークを提案する。
弊社は、Googleから世界最大の検索とレコメンデーションシステムのひとつで、オンラインとオフラインで実験を行い、得られた結果と教訓を提示する。
論文 参考訳(メタデータ) (2020-08-07T01:22:56Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。