論文の概要: OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2602.08603v1
- Date: Mon, 09 Feb 2026 12:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.230725
- Title: OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
- Title(参考訳): OSCAR: 合成画像検索のための最適化ステアリングエージェント計画
- Authors: Teng Wang, Rong Shan, Jianghao Lin, Junjie Wu, Tianyi Xu, Jianping Zhang, Wenteng Chen, Changwang Zhang, Zhaoxiang Wang, Weinan Zhang, Jun Wang,
- Abstract要約: 我々は、合成画像検索のための最適化されたエージェント計画フレームワークOSCARを提案する。
我々は,エージェントCIRを探索プロセスから基本軌道最適化問題に再構成した最初の人物である。
オフラインフェーズでは、原子検索選択と合成を2段階混合整数プログラミング問題としてモデル化する。
これらのトラジェクトリは黄金のライブラリに格納され、VLMプランナのオンラインステアリングのためのコンテキスト内デモとして機能する。
- 参考スコア(独自算出の注目度): 33.823055061609125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed image retrieval (CIR) requires complex reasoning over heterogeneous visual and textual constraints. Existing approaches largely fall into two paradigms: unified embedding retrieval, which suffers from single-model myopia, and heuristic agentic retrieval, which is limited by suboptimal, trial-and-error orchestration. To this end, we propose OSCAR, an optimization-steered agentic planning framework for composed image retrieval. We are the first to reformulate agentic CIR from a heuristic search process into a principled trajectory optimization problem. Instead of relying on heuristic trial-and-error exploration, OSCAR employs a novel offline-online paradigm. In the offline phase, we model CIR via atomic retrieval selection and composition as a two-stage mixed-integer programming problem, mathematically deriving optimal trajectories that maximize ground-truth coverage for training samples via rigorous boolean set operations. These trajectories are then stored in a golden library to serve as in-context demonstrations for online steering of VLM planner at online inference time. Extensive experiments on three public benchmarks and a private industrial benchmark show that OSCAR consistently outperforms SOTA baselines. Notably, it achieves superior performance using only 10% of training data, demonstrating strong generalization of planning logic rather than dataset-specific memorization.
- Abstract(参考訳): 合成画像検索(CIR)は、不均一な視覚的およびテキスト的制約に対する複雑な推論を必要とする。
既存のアプローチは、単一のモデルミオピアに苦しむ統合埋め込み検索と、準最適、試行錯誤のオーケストレーションによって制限されるヒューリスティックなエージェント検索の2つのパラダイムに大別される。
そこで本研究では,合成画像検索のためのエージェント計画フレームワークOSCARを提案する。
我々は、エージェントCIRをヒューリスティックな探索プロセスから原則的軌道最適化問題に再構成した最初の人物である。
ヒューリスティックな試行錯誤探索に頼る代わりに、OSCARは新たなオフラインオンラインパラダイムを採用している。
オフラインフェーズにおいて、我々は原子検索選択と合成を2段階混合整数計画問題としてモデル化し、厳密なブール集合演算によるサンプルのトレーニング対象範囲を最大化する最適軌道を数学的に導出する。
これらのトラジェクトリは黄金のライブラリに格納され、オンライン推論時にVLMプランナのオンラインステアリングのためのコンテキスト内デモとして機能する。
3つの公開ベンチマークとプライベートな産業ベンチマークに関する大規模な実験は、OSCARがSOTAベースラインを一貫して上回っていることを示している。
特に、トレーニングデータの10%しか使用せず、データセット固有の記憶ではなく、計画ロジックの強力な一般化を実証し、優れたパフォーマンスを実現している。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - ATLAS: Actor-Critic Task-Completion with Look-ahead Action Simulation [28.54052846801967]
ATLASは、認知空間におけるこれらの行動の結果をシミュレートすることで、環境のモデルに基づく計画を作成するメモリ拡張エージェントである。
WebArena-Liteベンチマークでは、これまで公表された最先端技術の53.9%の成功率と比較して63%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-26T16:03:39Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [15.137901457184839]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - You Only Train Once [11.97836331714694]
You Only Train Once (YOTO)は、損失選択と重み付けの後者の側面において、トレーニングを1ショットに制限することに貢献する。
複数の経験的損失を同時に最適化するために広く用いられている複合損失定式化の微分可能性を活用する。
YOTOは、未確認テストデータにおいて、最高のグリッド検索モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-06-04T18:04:58Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。