Fugu-MT 論文翻訳(概要): Multi-proposal Collaboration and Multi-task Training for Weakly-supervised Video Moment Retrieval

論文の概要: Multi-proposal Collaboration and Multi-task Training for Weakly-supervised Video Moment Retrieval

arxiv url: http://arxiv.org/abs/2605.14838v1
Date: Thu, 14 May 2026 13:43:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.851644
Title: Multi-proposal Collaboration and Multi-task Training for Weakly-supervised Video Moment Retrieval
Title（参考訳）: 弱教師付きビデオモーメント検索のための多目的コラボレーションとマルチタスクトレーニング
Authors: Bolin Zhang, Chao Yang, Bin Jiang, Takahiro Komamizu, Ichiro Ide,
Abstract要約: 本研究は、弱教師付きビデオモーメント検索(VMR)に焦点を当てる。ビデオレベルの対応のみを用いて、トリミングされていないビデオ内で、与えられたクエリと意味的に類似したモーメントを識別することを目的としている。
参考スコア（独自算出の注目度）: 11.680580642229016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study focuses on weakly-supervised Video Moment Retrieval (VMR), aiming to identify a moment semantically similar to the given query within an untrimmed video using only video-level correspondences, without relying on temporal annotations during training. Previous methods either aggregate predictions for all instances in the video, or indirectly address the task by proposing reconstructions for the query. However, these methods often produce low-quality temporal proposals, struggle with distinguishing misaligned moments in the same video, or lack stability due to a reliance on a single auxiliary task. To address these limitations, we present a novel weakly-supervised method called Multi-proposal Collaboration and Multi-task Training (MCMT). Initially, we generate multiple proposals and derive corresponding learnable Gaussian masks from them. These masks are then combined to create a high-quality positive sample mask, highlighting video clips most relevant to the query. Concurrently, we classify other clips in the same video as the easy negative sample and the entire video as the hard negative sample. During training, we introduce forward and inverse masked query reconstruction tasks to impose more substantial constraints on the network, promoting more robust and stable retrieval performance. Extensive experiments on two standard benchmarks affirm the effectiveness of the proposed method in VMR.
Abstract（参考訳）: 本研究は,ビデオレベルの対応のみを用いて,訓練中の時間的アノテーションに頼ることなく,与えられたクエリにセマンティックに類似したモーメント検索(VMR)を実現することを目的とした,弱い教師付きビデオモーメント検索(VMR)に焦点を当てた。以前の方法では、ビデオ内のすべてのインスタンスの予測を集約するか、クエリの再構築を提案して間接的にタスクに対処する。しかし、これらの手法は、しばしば低品質の時間的提案を生み出し、同じビデオの中で不一致の瞬間を区別するのに苦労する、あるいは一つの補助的なタスクに依存するため安定性が欠如している。これらの制約に対処するため, MCMT(Multi-proosal Collaboration and Multi-task Training)と呼ばれる, 弱制御方式を提案する。最初は複数の提案を生成し、それに対応する学習可能なガウスマスクを導出する。これらのマスクを組み合わせて高品質の正のサンプルマスクを生成し、クエリに最も関係のあるビデオクリップをハイライトする。同時に、他のクリップを簡単な負のサンプルと同じビデオに分類し、ビデオ全体をハードな負のサンプルに分類する。トレーニング中に、ネットワークにより実質的な制約を課し、より堅牢で安定した検索性能を促進するために、前方および逆マスキングされたクエリ再構築タスクを導入する。 VMRにおける提案手法の有効性を2つの標準ベンチマークで検証した。

関連論文リスト

VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations [59.40631942092535]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、ビデオ内の正確なセグメントを特定することを目的としている。最近のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通してVTGに取り組むことを約束している。本稿では,境界アノテーションを反映した新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
論文参考訳（メタデータ） (2025-10-27T14:55:38Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。 T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文参考訳（メタデータ） (2025-03-19T10:50:03Z)
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。 MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。 5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文参考訳（メタデータ） (2023-08-29T08:20:23Z)
MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文参考訳（メタデータ） (2023-08-15T17:38:55Z)
VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-24T07:54:59Z)
Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文参考訳（メタデータ） (2020-08-19T04:42:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。