論文の概要: FUSE : Failure-aware Usage of Subagent Evidence for MultiModal Search and Recommendation
- arxiv url: http://arxiv.org/abs/2601.02365v1
- Date: Sat, 15 Nov 2025 07:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.485
- Title: FUSE : Failure-aware Usage of Subagent Evidence for MultiModal Search and Recommendation
- Title(参考訳): FUSE : マルチモーダル検索とレコメンデーションのためのサブエージェントエビデンス
- Authors: Tushar Vatsa, Vibha Belavadi, Priya Shanmugasundaram, Suhas Suresha, Dewang Sultania,
- Abstract要約: マルチモーダルなクリエイティブアシスタントは、ユーザ目標を分解し、レイアウト、スタイリング、検索、生成のためのサブエージェントにタスクをルーティングする。
FUSEはコンテキスト圧縮、連鎖推論、ミニショット最適化、検索拡張コンテキスト、2段階処理、ゼロショット最小化という7つのコンテキスト予算戦略を実装している。
- 参考スコア(独自算出の注目度): 1.3618516245643617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal creative assistants decompose user goals and route tasks to subagents for layout, styling, retrieval, and generation. Retrieval quality is pivotal, yet failures can arise at several stages: understanding user intent, choosing content types, finding candidates (recall), or ranking results. Meanwhile, sending and processing images is costly, making naive multimodal approaches impractical. We present FUSE: Failure-aware Usage of Subagent Evidence for MultiModal Search and Recommendation. FUSE replaces most raw-image prompting with a compact Grounded Design Representation (GDR): a selection aware JSON of canvas elements (image, text, shape, icon, video, logo), structure, styles, salient colors, and user selection provided by the Planner team. FUSE implements seven context budgeting strategies: comprehensive baseline prompting, context compression, chain-of-thought reasoning, mini-shot optimization, retrieval-augmented context, two-stage processing, and zero-shot minimalism. Finally, a pipeline attribution layer monitors system performance by converting subagent signals into simple checks: intent alignment, content-type/routing sanity, recall health (e.g., zero-hit and top-match strength), and ranking displacement analysis. We evaluate the seven context budgeting variants across 788 evaluation queries from diverse users and design templates (refer Figure 3). Our systematic evaluation reveals that Context Compression achieves optimal performance across all pipeline stages, with 93.3% intent accuracy, 86.8% routing success(with fallbacks), 99.4% recall, and 88.5% NDCG@5. This approach demonstrates that strategic context summarization outperforms both comprehensive and minimal contextualization strategies.
- Abstract(参考訳): マルチモーダルなクリエイティブアシスタントは、ユーザ目標を分解し、レイアウト、スタイリング、検索、生成のためのサブエージェントにタスクをルーティングする。
検索品質は重要なものだが、ユーザ意図の理解、コンテンツタイプの選択、候補(リコール)の検索、結果のランク付けなど、いくつかの段階で失敗が発生する可能性がある。
一方、画像の送受信にはコストがかかるため、単純で非現実的なマルチモーダルアプローチが実現できない。
FUSE:マルチモーダル検索とレコメンデーションのためのサブエージェント証拠のフェールアウェア利用について述べる。
画像、テキスト、形状、アイコン、ビデオ、ロゴ)、構造、スタイル、鮮やかな色、そしてPlannerチームが提供するユーザー選択のキャンバス要素の選択を意識したJSONである。
FUSEは、包括的なベースラインプロンプト、コンテキスト圧縮、チェーンオブ思考推論、ミニショット最適化、検索強化コンテキスト、二段階処理、ゼロショット最小化という7つのコンテキスト予算戦略を実装している。
最後に、パイプライン属性層は、サブエージェント信号をインテントアライメント、コンテントタイプ/ラウティングサニティ、リコールヘルス(例えば、ゼロヒット、トップマッチ強度)、ランキング変位解析といった単純なチェックに変換することにより、システムパフォーマンスを監視する。
多様なユーザやデザインテンプレートから,788件の評価クエリに対して,コンテキスト予算の亜種を7種類評価する(図3参照)。
系統的な評価では、Context Compressionは、93.3%の意図的正確性、86.8%のルーティング成功(フォールバック)、99.4%のリコール、88.5%のNDCG@5で、すべてのパイプラインステージで最適なパフォーマンスを実現している。
このアプローチは、戦略的文脈要約が包括的かつ最小限の文脈化戦略よりも優れていることを示す。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization [16.530984854626038]
Taobaoのeコマースビジュアルサーチでは、ユーザの行動分析によって、クリック不要なリクエストのかなりの割合が明らかになった。
ユーザの暗黙的意図表現とシステム応答のこのミスマッチは、User-SearchSys Intent Discrepancyを定義します。
オフライン推論マイニングとオンライン意思決定と実行を統合した新しいフレームワークREVISIONを提案する。
論文 参考訳(メタデータ) (2025-10-26T16:15:50Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World [13.089848592467675]
テキストベースのPedestrian Retrieval (TPR)は、自然言語の記述に従って視覚的なシーンで特定の歩行者を検索する。
セマンティック理解とクロスシーン適応性を強化したオープンワールド対話型ゼロショットTPRフレームワークFitProを提案する。
論文 参考訳(メタデータ) (2025-09-20T12:55:18Z) - CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [20.292872255460534]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。
RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。
経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文 参考訳(メタデータ) (2025-06-20T09:02:05Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。