論文の概要: OSGNet with MLLM Reranking @ Ego4D Episodic Memory Challenge 2026
- arxiv url: http://arxiv.org/abs/2605.20818v1
- Date: Wed, 20 May 2026 07:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.54535
- Title: OSGNet with MLLM Reranking @ Ego4D Episodic Memory Challenge 2026
- Title(参考訳): OSGNet with MLLM re ranking @ Ego4D Episodic Memory Challenge 2026
- Authors: Yisen Feng, Leigang Qu, Haoyu Zhang, Qiaohui Chu, Meng Liu, Xuemeng Song, Weili Guan, Liqiang Nie,
- Abstract要約: 我々はCVPR 2026でEgo4D Episodic Memory Challengeの自然言語クエリとGoalStepトラックのチャンピオンソリューションを提示する。
マルチモーダル大言語モデル(MLLM)の強力なビデオ言語推論能力を効果的に活用する再ランクベースのフレームワークを提案する。
提案手法は自然言語クエリとGoalStepトラックの両方で1位を獲得した。
- 参考スコア(独自算出の注目度): 75.6762616797288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solutions for the Natural Language Queries and GoalStep tracks of the Ego4D Episodic Memory Challenge at CVPR 2026. Both tracks require accurately localizing temporal segments from long untrimmed egocentric videos. To address these tasks, we propose a reranking-based framework that effectively leverages the strong video-language reasoning capability of multimodal large language model (MLLM) while preserving the efficiency and candidate recall of conventional localization pipelines. Specifically, we first obtain a set of candidate segments from existing localization model OSGNet, and then employ MLLM to select the segment that best matches the given query, thereby refining the final prediction. Ultimately, our method achieved first place in both the Natural Language Queries and GoalStep tracks. Our code can be found at https://github.com/iLearn-Lab/CVPR25-OSGNet.
- Abstract(参考訳): 本稿では,CVPR 2026におけるEgo4D Episodic Memory Challengeの自然言語クエリとGoalStepトラックのチャンピオンソリューションについて紹介する。
どちらのトラックも、長くトリミングされていないエゴセントリックなビデオから時間セグメントを正確に特定する必要がある。
これらの課題に対処するために、従来のローカライゼーションパイプラインの効率性と候補リコールを保ちつつ、マルチモーダル大言語モデル(MLLM)の強力なビデオ言語推論能力を効果的に活用する再ランクベースのフレームワークを提案する。
具体的には、まず既存のローカライゼーションモデルOSGNetから候補セグメントの集合を取得し、次にMLLMを用いて、与えられたクエリに最適なセグメントを選択し、最終的な予測を精査する。
最終的に、私たちの手法は自然言語クエリとGoalStepトラックの両方で1位を獲得しました。
私たちのコードはhttps://github.com/iLearn-Lab/CVPR25-OSGNet.orgにある。
関連論文リスト
- OSGNet @ Ego4D Episodic Memory Challenge 2025 [77.414837862995]
CVPR 2025のEgo4D Episodic Memory Challengeにおいて,エゴセントリックな3つのビデオローカライゼーショントラックのチャンピオンソリューションを提案する。
我々は,3つのタスクすべてに取り組むために,初期核融合に基づくビデオローカライゼーションモデルを採用し,ローカライゼーションの精度を高めることを目的とした。
論文 参考訳(メタデータ) (2025-06-04T08:41:42Z) - Zero-shot Video Moment Retrieval via Off-the-shelf Multimodal Large Language Models [7.213221003652941]
本稿では,凍結MLLMを用いたゼロショットVMRのためのチューニング不要パイプラインであるMoment-GPTを提案する。
我々はまずLLaMA-3を用いて言語バイアスを軽減するためにクエリの修正と表現を行い、その後MiniGPT-v2と組み合わせたスパンジェネレータを設計し、候補スパンを適応的に生成する。
提案手法は,複数の公開データセット上で,最先端のMLLMベースおよびゼロショットモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-14T09:45:10Z) - ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning [8.379286663107845]
セグメンテーション(Reasoning segmentation)は、セグメンテーションシステムが暗黙のユーザ意図を推論し解釈することを可能にする新しいタスクである。
推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。
論文 参考訳(メタデータ) (2024-04-12T18:45:51Z) - Empowering Segmentation Ability to Multi-modal Large Language Models [19.685984211930354]
マルチモーダルな大言語モデル(MLLM)をセグメンテーション能力で拡張する。
拡張MLLMは、画像言語プロンプトに対する言語応答を出力し、言語プロンプト内の複雑な質問やクエリがフォーカスする領域をセグメント化することができる。
LLaVASegと呼ばれる新しいMLLMフレームワークを提案する。このフレームワークは,MLLMにユーザによってクエリされたターゲット領域を分割するように指示するチェーン・オブ・シークレット・プロンプト戦略を利用する。
論文 参考訳(メタデータ) (2024-03-21T05:36:25Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [30.48902594738911]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - Weakly-Supervised Temporal Action Localization Through Local-Global
Background Modeling [30.104982661371164]
上記の問題に対処するためにBaSNetをベースとした2021年のHACS Challenge - 弱々しい教師付き学習追跡ソリューションを提示する。
具体的には、まず、事前訓練されたCSN、Slowfast、TDN、ViViTを特徴抽出器として採用し、特徴系列を得る。
そこで提案するローカル・グローバル・バックグラウンド・モデリング・ネットワーク(LGBM-Net)は,ビデオレベルラベルのみを用いてインスタンスのローカライズを訓練する。
論文 参考訳(メタデータ) (2021-06-20T02:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。