論文の概要: Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2602.19040v1
- Date: Tue, 02 Dec 2025 09:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.622663
- Title: Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval
- Title(参考訳): テキスト・ビデオ検索のための適応型マルチエージェント推論
- Authors: Jiaxin Wu, Xiao-Yong Wei, Qing Li,
- Abstract要約: 本稿では,複数の推論を繰り返して特殊エージェントを編成する適応型マルチエージェント検索フレームワークを提案する。
私たちのフレームワークは、CLIP4Clipよりも2倍の改善を実現し、最先端のメソッドを大きなマージンで大幅に上回ります。
- 参考スコア(独自算出の注目度): 12.701443847087164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of short-form video platforms and the emergence of multimodal large language models (MLLMs) have amplified the need for scalable, effective, zero-shot text-to-video retrieval systems. While recent advances in large-scale pretraining have improved zero-shot cross-modal alignment, existing methods still struggle with query-dependent temporal reasoning, limiting their effectiveness on complex queries involving temporal, logical, or causal relationships. To address these limitations, we propose an adaptive multi-agent retrieval framework that dynamically orchestrates specialized agents over multiple reasoning iterations based on the demands of each query. The framework includes: (1) a retrieval agent for scalable retrieval over large video corpora, (2) a reasoning agent for zero-shot contextual temporal reasoning, and (3) a query reformulation agent for refining ambiguous queries and recovering performance for those that degrade over iterations. These agents are dynamically coordinated by an orchestration agent, which leverages intermediate feedback and reasoning outcomes to guide execution. We also introduce a novel communication mechanism that incorporates retrieval-performance memory and historical reasoning traces to improve coordination and decision-making. Experiments on three TRECVid benchmarks spanning eight years show that our framework achieves a twofold improvement over CLIP4Clip and significantly outperforms state-of-the-art methods by a large margin.
- Abstract(参考訳): ショートフォームビデオプラットフォームの台頭とマルチモーダル大言語モデル(MLLM)の出現により、スケーラブルで効果的でゼロショットのテキスト・ツー・ビデオ検索システムの必要性が高まっている。
大規模プレトレーニングの最近の進歩は、ゼロショットのクロスモーダルアライメントを改善しているが、既存の手法は、時間的、論理的、因果関係を含む複雑なクエリにおける有効性を制限し、クエリ依存の時間的推論に苦慮している。
これらの制約に対処するために,各クエリの要求に基づいて,複数の推論反復に対して特殊エージェントを動的にオーケストレーションする適応型マルチエージェント検索フレームワークを提案する。
本フレームワークは,(1)大規模ビデオコーパス上でスケーラブルな検索を行う検索エージェント,(2)ゼロショットの文脈的時間的推論を行う推論エージェント,(3)不明瞭なクエリを精査し,繰り返しよりも劣化したユーザのパフォーマンスを回復するクエリ再構成エージェントを含む。
これらのエージェントは、中間的なフィードバックと推論結果を利用して実行をガイドするオーケストレーションエージェントによって動的に調整される。
また,検索性能メモリと履歴推論トレースを組み込んだ新たなコミュニケーション機構を導入し,コーディネーションと意思決定を改善した。
8年間にわたる3つのTRECVidベンチマーク実験により、我々のフレームワークはCLIP4Clipよりも2倍の改善を達成し、最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T18:40:37Z) - When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning [26.489185170468062]
適応複雑クエリ最適化(ACQO)と呼ばれる新しいRLフレームワークを提案する。
我々のフレームワークは、いつ、どのように検索プロセスを拡張するかを適応的に決定するように設計されている。
ACQOは3つの複雑なクエリベンチマークで最先端のパフォーマンスを達成し、確立されたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-29T03:16:53Z) - Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion [0.0]
本稿では3つの重要な革新を伴う統合マルチモーダルモーダルモーメント検索システムを提案する。
まず、ケース化された二重埋め込みパイプラインがBEIT-3とSigLIPを組み合わせて広帯域検索を行う。
第二に、時間的認識のスコアリング機構は、ビームサーチによる大きな時間的ギャップに指数的減衰ペナルティを適用している。
第3に、エージェント誘導クエリ分解(GPT-4o)は、あいまいなクエリを自動的に解釈する。
論文 参考訳(メタデータ) (2025-12-15T02:50:43Z) - Benefits and Limitations of Communication in Multi-Agent Reasoning [11.788489289062312]
マルチエージェントシステムの表現性を解析するための理論的枠組みを提案する。
i) タスクを正確に解くために必要なエージェントの数, (ii) エージェント間通信の量と構造, (iii) 達成可能なスピードアップを問題サイズとコンテキストスケールとして導出する。
本研究は,コミュニケーションが有益である状況を特定し,エージェント数と帯域幅のトレードオフを明確化し,いずれのリソースにも制約がある場合の本質的な制約を明らかにする。
論文 参考訳(メタデータ) (2025-10-14T20:04:27Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。