論文の概要: Who Can We Trust? Scope-Aware Video Moment Retrieval with Multi-Agent Conflict
- arxiv url: http://arxiv.org/abs/2511.00370v1
- Date: Sat, 01 Nov 2025 02:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.744867
- Title: Who Can We Trust? Scope-Aware Video Moment Retrieval with Multi-Agent Conflict
- Title(参考訳): マルチエージェント・コンフリクトによるビデオモーメント検索
- Authors: Chaochen Wu, Guan Luo, Meiyun Zuo, Zhitao Fan,
- Abstract要約: ビデオモーメント検索はテキストクエリを使用して、与えられた未トリミングビデオ参照から瞬間を特定する。
このタスクの現在のソリューションは、異なるモデルから得られるロケーション内の競合を考慮していない。
本研究では,モーメント境界を見つけるためにビデオ全体を一度スキャンできる強化学習に基づくビデオモーメント検索モデルを提案する。
- 参考スコア(独自算出の注目度): 2.1999185330214828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video moment retrieval uses a text query to locate a moment from a given untrimmed video reference. Locating corresponding video moments with text queries helps people interact with videos efficiently. Current solutions for this task have not considered conflict within location results from different models, so various models cannot integrate correctly to produce better results. This study introduces a reinforcement learning-based video moment retrieval model that can scan the whole video once to find the moment's boundary while producing its locational evidence. Moreover, we proposed a multi-agent system framework that can use evidential learning to resolve conflicts between agents' localization output. As a side product of observing and dealing with conflicts between agents, we can decide whether a query has no corresponding moment in a video (out-of-scope) without additional training, which is suitable for real-world applications. Extensive experiments on benchmark datasets show the effectiveness of our proposed methods compared with state-of-the-art approaches. Furthermore, the results of our study reveal that modeling competition and conflict of the multi-agent system is an effective way to improve RL performance in moment retrieval and show the new role of evidential learning in the multi-agent framework.
- Abstract(参考訳): ビデオモーメント検索はテキストクエリを使用して、与えられた未トリミングビデオ参照から瞬間を特定する。
テキストクエリで対応するビデオモーメントを配置することは、人々が効率的にビデオと対話するのに役立つ。
この課題に対する現在の解決策は、異なるモデルから得られる位置の競合を考慮していないため、より優れた結果を得るために様々なモデルが正しく統合できない。
本研究は,映像全体を1度にスキャンし,その位置的証拠を提示しながら,映像境界を見つけるための強化学習に基づく映像モーメント検索モデルを提案する。
さらに,エージェントのローカライゼーション出力間の競合を解決するために,明らかな学習を利用するマルチエージェントシステムフレームワークを提案する。
エージェント間の衝突を観察し、対処する副産物として、クエリがビデオ(スコープ外)に対応するモーメントを持たないかどうかを、現実世界のアプリケーションに適した追加のトレーニングなしで決定できる。
ベンチマークデータセットの大規模な実験により,提案手法の有効性を最先端の手法と比較した。
さらに,本研究の結果から,マルチエージェントシステムのモデリング競争と競合は,モーメント検索におけるRL性能の向上に有効な方法であり,マルチエージェントフレームワークにおける顕在的学習の新たな役割を示すことが明らかとなった。
関連論文リスト
- Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning [33.37714717781103]
VideoMindは、ビデオ理解のための新しいビデオ言語エージェントである。
ビデオの時間的推論に不可欠な機能を特定し,ロールベースのエージェントワークフローを開発する。
軽量なLoRAアダプタによるシームレスなロールスイッチングを実現する新しいChain-of-LoRA戦略を提案する。
論文 参考訳(メタデータ) (2025-03-17T17:59:33Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval
and Highlight Detection [46.25856560381347]
我々は、Unified Multi-modal Transformers (UMT) という、最初の統一されたフレームワークを提示する。
UMTはそのような共同最適化を実現することができるが、個々の問題を解決するために容易に分解できる。
我々の知る限り、これは共同最適化と個別モーメント検索のいずれにもマルチモーダル(視覚)学習を統合する最初のスキームである。
論文 参考訳(メタデータ) (2022-03-23T22:11:43Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。