Fugu-MT 論文翻訳(概要): How to Take a Memorable Picture? Empowering Users with Actionable Feedback

論文の概要: How to Take a Memorable Picture? Empowering Users with Actionable Feedback

arxiv url: http://arxiv.org/abs/2602.21877v1
Date: Wed, 25 Feb 2026 13:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.838114
Title: How to Take a Memorable Picture? Empowering Users with Actionable Feedback
Title（参考訳）: 記憶に残る写真をどう撮るか? アクション可能なフィードバックでユーザーに力を与える
Authors: Francesco Laiti, Davide Talon, Jacopo Staiano, Elisa Ricci,
Abstract要約: 本稿では,自動モデルがユーザに対して動作可能な人間解釈可能なガイダンスを提供するための,MemFeed(MemFeed)のタスクを紹介する。また,覚えやすさ向上のために,自然言語で具体的な提案を行うための最初のアプローチであるMemCoachについても紹介する。
参考スコア（独自算出の注目度）: 16.746442650748044
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Image memorability, i.e., how likely an image is to be remembered, has traditionally been studied in computer vision either as a passive prediction task, with models regressing a scalar score, or with generative methods altering the visual input to boost the image likelihood of being remembered. Yet, none of these paradigms supports users at capture time, when the crucial question is how to improve a photo memorability. We introduce the task of Memorability Feedback (MemFeed), where an automated model should provide actionable, human-interpretable guidance to users with the goal to enhance an image future recall. We also present MemCoach, the first approach designed to provide concrete suggestions in natural language for memorability improvement (e.g., "emphasize facial expression," "bring the subject forward"). Our method, based on Multimodal Large Language Models (MLLMs), is training-free and employs a teacher-student steering strategy, aligning the model internal activations toward more memorable patterns learned from a teacher model progressing along least-to-most memorable samples. To enable systematic evaluation on this novel task, we further introduce MemBench, a new benchmark featuring sequence-aligned photoshoots with annotated memorability scores. Our experiments, considering multiple MLLMs, demonstrate the effectiveness of MemCoach, showing consistently improved performance over several zero-shot models. The results indicate that memorability can not only be predicted but also taught and instructed, shifting the focus from mere prediction to actionable feedback for human creators.
Abstract（参考訳）: 画像の記憶可能性、すなわち、画像がどれだけ記憶されるかは、伝統的にコンピュータビジョンにおいて受動的予測タスクとして研究され、スカラースコアを回帰するモデルや、記憶される画像の可能性を高めるために視覚入力を変化させる生成方法によって研究されてきた。しかし、これらのパラダイムはいずれもキャプチャ時にユーザーをサポートするものではない。本稿では,自動モデルによってユーザに対して,将来的なリコールの促進を目標として,動作可能な人間解釈可能なガイダンスを提供する,MemFeed(MemFeed)のタスクを紹介する。また,記憶力向上のために自然言語で具体的な提案を行うために設計された最初のアプローチであるMemCoachを紹介した。本手法は,Multimodal Large Language Models (MLLMs) をベースとして,教師-学生による操舵戦略を採用し,教師モデルから学習したより記憶に富んだパターンを最小限の記憶可能なサンプルに沿って整列させる。本稿では,この課題を体系的に評価するために,注釈付き記憶度スコア付きシーケンスアラインな写真撮影を特徴とする新しいベンチマークであるMemBenchを紹介する。複数のMLLMを考慮し,MemCoachの有効性を実証し,複数のゼロショットモデルに対して一貫した性能向上を示した。その結果,記憶力は予測だけでなく教育や指導も可能であり,単なる予測から人間の創造者への行動可能なフィードバックへと焦点を移すことが示唆された。

関連論文リスト

Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Flux Already Knows -- Activating Subject-Driven Image Generation without Training [25.496237241889048]
バニラフラックスモデルを用いた画像生成のためのゼロショットフレームワークを提案する。我々は、追加のデータ、トレーニング、推論時の微調整なしで強力なID保存機能を起動する。
論文参考訳（メタデータ） (2025-04-12T20:41:53Z)
Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文参考訳（メタデータ） (2025-04-12T09:40:14Z)
Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision [17.85820426682908]
クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。 Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
論文参考訳（メタデータ） (2024-12-30T07:09:28Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2024-11-16T03:21:06Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Déjà Vu Memorization in Vision-Language Models [39.51189095703773]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文参考訳（メタデータ） (2024-02-03T09:55:35Z)
Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文参考訳（メタデータ） (2022-09-08T16:55:19Z)
SPeCiaL: Self-Supervised Pretraining for Continual Learning [49.34919926042038]
SPeCiaLは、継続学習に適した表現の教師なし事前学習方法である。本研究では,SPeCiaLを連続的なFew-Shot学習環境において評価し,他の教師付き事前学習手法に適合または優れることを示す。
論文参考訳（メタデータ） (2021-06-16T18:15:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。