Fugu-MT 論文翻訳(概要): PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

論文の概要: PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

arxiv url: http://arxiv.org/abs/2603.01493v1
Date: Mon, 02 Mar 2026 06:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.708721
Title: PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval
Title（参考訳）: PhotoBench:パーソナライズされたインテント駆動の写真検索に向けてのビジュアルマッチングを超えて
Authors: Tianyi Xu, Rong Shan, Junjie Wu, Jiadeng Huang, Teng Wang, Jiachen Zhu, Wenteng Chen, Minxin Tu, Quantao Dou, Zhaoxiang Wang, Changwang Zhang, Weinan Zhang, Jun Wang, Jianghao Lin,
Abstract要約: PhotoBenchは、本物の個人用アルバムから構築された最初のベンチマークである。パラダイムを視覚的マッチングから、パーソナライズされたマルチソースインテント駆動推論に移行するように設計されている。
参考スコア（独自算出の注目度）: 29.907367363360652
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Personal photo albums are not merely collections of static images but living, ecological archives defined by temporal continuity, social entanglement, and rich metadata, which makes the personalized photo retrieval non-trivial. However, existing retrieval benchmarks rely heavily on context-isolated web snapshots, failing to capture the multi-source reasoning required to resolve authentic, intent-driven user queries. To bridge this gap, we introduce PhotoBench, the first benchmark constructed from authentic, personal albums. It is designed to shift the paradigm from visual matching to personalized multi-source intent-driven reasoning. Based on a rigorous multi-source profiling framework, which integrates visual semantics, spatial-temporal metadata, social identity, and temporal events for each image, we synthesize complex intent-driven queries rooted in users' life trajectories. Extensive evaluation on PhotoBench exposes two critical limitations: the modality gap, where unified embedding models collapse on non-visual constraints, and the source fusion paradox, where agentic systems perform poor tool orchestration. These findings indicate that the next frontier in personal multimodal retrieval lies beyond unified embeddings, necessitating robust agentic reasoning systems capable of precise constraint satisfaction and multi-source fusion. Our PhotoBench is available.
Abstract（参考訳）: 個人写真アルバムは、単に静的な画像のコレクションではなく、時間的連続性、社会的絡み合い、リッチメタデータによって定義された生態的アーカイブであり、パーソナライズされた写真検索は簡単ではない。しかし、既存の検索ベンチマークは、コンテキストアイソレーションされたWebスナップショットに大きく依存しており、真正でインテント駆動のユーザクエリを解決するのに必要なマルチソース推論をキャプチャできなかった。このギャップを埋めるために、私たちはPhotoBenchを紹介します。パラダイムを視覚的マッチングから、パーソナライズされたマルチソースインテント駆動推論に移行するように設計されている。視覚的セマンティクス、空間的時間的メタデータ、社会的アイデンティティ、時間的イベントを統合した厳密なマルチソース・プロファイリング・フレームワークに基づいて、ユーザのライフトラジェクトリに根ざした複雑なインテント駆動クエリを合成する。統合埋め込みモデルが非視覚的制約で崩壊するモダリティギャップと、エージェントシステムが貧弱なツールオーケストレーションを行うソース融合パラドックスだ。これらの結果から, 個人的マルチモーダル検索の次のフロンティアは, 統合埋め込みを超えて, 厳密な制約満足度とマルチソース融合が可能な堅牢なエージェント推論システムを必要とすることが示唆された。 PhotoBenchが利用可能です。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval [6.804414686833417]
PRISmは2つの新しいコンポーネントを通して画像と画像の検索を促進するマルチモーダルフレームワークである。 Importance Prediction Moduleは、イメージ内で最も重要なオブジェクトとリレーショナルトリガを特定し、保持する。 Edge-Aware Graph Neural Networkは、リレーショナル構造を明示的にエンコードし、グローバルな視覚的特徴を統合して、セマンティックなインフォメーション画像の埋め込みを生成する。
論文参考訳（メタデータ） (2025-12-20T15:57:46Z)
The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-11-25T18:40:25Z)
Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。 ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-10-26T04:13:31Z)
FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文参考訳（メタデータ） (2025-09-01T07:06:36Z)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-11T19:59:43Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。