論文の概要: How to Take a Memorable Picture? Empowering Users with Actionable Feedback
- arxiv url: http://arxiv.org/abs/2602.21877v1
- Date: Wed, 25 Feb 2026 13:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.838114
- Title: How to Take a Memorable Picture? Empowering Users with Actionable Feedback
- Title(参考訳): 記憶に残る写真をどう撮るか? アクション可能なフィードバックでユーザーに力を与える
- Authors: Francesco Laiti, Davide Talon, Jacopo Staiano, Elisa Ricci,
- Abstract要約: 本稿では,自動モデルがユーザに対して動作可能な人間解釈可能なガイダンスを提供するための,MemFeed(MemFeed)のタスクを紹介する。
また,覚えやすさ向上のために,自然言語で具体的な提案を行うための最初のアプローチであるMemCoachについても紹介する。
- 参考スコア(独自算出の注目度): 16.746442650748044
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.
- Abstract(参考訳): 画像の記憶可能性、すなわち、画像がどれだけ記憶されるかは、伝統的にコンピュータビジョンにおいて受動的予測タスクとして研究され、スカラースコアを回帰するモデルや、記憶される画像の可能性を高めるために視覚入力を変化させる生成方法によって研究されてきた。
しかし、これらのパラダイムはいずれもキャプチャ時にユーザーをサポートするものではない。
本稿では,自動モデルによってユーザに対して,将来的なリコールの促進を目標として,動作可能な人間解釈可能なガイダンスを提供する,MemFeed(MemFeed)のタスクを紹介する。
また,記憶力向上のために自然言語で具体的な提案を行うために設計された最初のアプローチであるMemCoachを紹介した。
本手法は,Multimodal Large Language Models (MLLMs) をベースとして,教師-学生による操舵戦略を採用し,教師モデルから学習したより記憶に富んだパターンを最小限の記憶可能なサンプルに沿って整列させる。
本稿では,この課題を体系的に評価するために,注釈付き記憶度スコア付きシーケンスアラインな写真撮影を特徴とする新しいベンチマークであるMemBenchを紹介する。
複数のMLLMを考慮し,MemCoachの有効性を実証し,複数のゼロショットモデルに対して一貫した性能向上を示した。
その結果,記憶力は予測だけでなく教育や指導も可能であり,単なる予測から人間の創造者への行動可能なフィードバックへと焦点を移すことが示唆された。
関連論文リスト
- Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision [17.85820426682908]
クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。
画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。
Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
論文 参考訳(メタデータ) (2024-12-30T07:09:28Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。