論文の概要: Unsupervised Memorability Modeling from Tip-of-the-Tongue Retrieval Queries
- arxiv url: http://arxiv.org/abs/2511.20854v1
- Date: Tue, 25 Nov 2025 21:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.862145
- Title: Unsupervised Memorability Modeling from Tip-of-the-Tongue Retrieval Queries
- Title(参考訳): Tip-of-the-Tongue Retrieval Queriesからの教師なし記憶可能性モデリング
- Authors: Sree Bhattacharyya, Yaman Kumar Singla, Sudhir Yarram, Somesh Kumar Singh, Harini S, James Z. Wang,
- Abstract要約: 視覚的記憶可能性信号のモデル化のために設計された,最初の大規模教師なしデータセットを紹介する。
我々はRedditなどのオンラインプラットフォームからのToT検索クエリを活用している。
大規模視覚言語モデルは、GPT-4oのような最先端のモデルよりも優れており、オープンエンドの記憶可能性の記述を生成する。
- 参考スコア(独自算出の注目度): 11.240888756303086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual content memorability has intrigued the scientific community for decades, with applications ranging widely, from understanding nuanced aspects of human memory to enhancing content design. A significant challenge in progressing the field lies in the expensive process of collecting memorability annotations from humans. This limits the diversity and scalability of datasets for modeling visual content memorability. Most existing datasets are limited to collecting aggregate memorability scores for visual content, not capturing the nuanced memorability signals present in natural, open-ended recall descriptions. In this work, we introduce the first large-scale unsupervised dataset designed explicitly for modeling visual memorability signals, containing over 82,000 videos, accompanied by descriptive recall data. We leverage tip-of-the-tongue (ToT) retrieval queries from online platforms such as Reddit. We demonstrate that our unsupervised dataset provides rich signals for two memorability-related tasks: recall generation and ToT retrieval. Large vision-language models fine-tuned on our dataset outperform state-of-the-art models such as GPT-4o in generating open-ended memorability descriptions for visual content. We also employ a contrastive training strategy to create the first model capable of performing multimodal ToT retrieval. Our dataset and models present a novel direction, facilitating progress in visual content memorability research.
- Abstract(参考訳): 視覚的コンテンツの記憶力は、人間の記憶の微妙な側面の理解からコンテンツデザインの強化に至るまで、何十年にもわたって科学界の関心を集めてきた。
この分野を前進させる上で重要な課題は、人間の記憶可能性アノテーションを収集する高価なプロセスにある。
これにより、視覚的コンテンツの記憶可能性のモデリングのためのデータセットの多様性とスケーラビリティが制限される。
既存のデータセットのほとんどは、自然でオープンなリコール記述に存在するニュアンス付き記憶可能性信号の収集ではなく、視覚コンテンツに対する集合記憶可能性スコアの収集に限られている。
本研究では,82,000本以上のビデオと記述的リコールデータを組み合わせた,視覚的記憶可能性信号のモデル化を目的とした,最初の大規模教師なしデータセットを提案する。
我々はRedditなどのオンラインプラットフォームからのToT検索クエリを活用している。
我々の教師なしデータセットは、リコール生成とToT検索という2つの記憶可能性関連タスクに対してリッチな信号を提供することを示した。
大規模視覚言語モデルは、我々のデータセットに基づいて微調整され、GPT-4oのような最先端のモデルより優れており、視覚コンテンツのためのオープンエンドメモリビリティ記述を生成する。
また、マルチモーダルなToT検索が可能な最初のモデルを作成するために、コントラスト的なトレーニング戦略も採用している。
我々のデータセットとモデルは新たな方向性を示し、視覚的コンテンツの記憶可能性研究の進展を促進する。
関連論文リスト
- Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。