論文の概要: An Efficient COarse-to-fiNE Alignment Framework @ Ego4D Natural Language
Queries Challenge 2022
- arxiv url: http://arxiv.org/abs/2211.08776v1
- Date: Wed, 16 Nov 2022 09:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:25:43.370895
- Title: An Efficient COarse-to-fiNE Alignment Framework @ Ego4D Natural Language
Queries Challenge 2022
- Title(参考訳): 効率的な粒度調整フレームワーク@ego4d natural language query challenge 2022
- Authors: Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong
Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan
- Abstract要約: 本報告では,ECCV 2022におけるEgo4D Natural Language Queries (NLQ) Challengeに対するCONEアプローチについて述べる。
当社のモデルCONEは、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークです。
ブラインドテストセットでは、それぞれ R1@IoU=0.3 と R1@IoU=0.5 に対して 15.26 と 9.24 を達成する。
- 参考スコア(独自算出の注目度): 70.7882058229772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report describes the CONE approach for Ego4D Natural Language
Queries (NLQ) Challenge in ECCV 2022. We leverage our model CONE, an efficient
window-centric COarse-to-fiNE alignment framework. Specifically, CONE
dynamically slices the long video into candidate windows via a sliding window
approach. Centering at windows, CONE (1) learns the inter-window
(coarse-grained) semantic variance through contrastive learning and speeds up
inference by pre-filtering the candidate windows relevant to the NL query, and
(2) conducts intra-window (fine-grained) candidate moments ranking utilizing
the powerful multi-modal alignment ability of the contrastive vision-text
pre-trained model EgoVLP. On the blind test set, CONE achieves 15.26 and 9.24
for R1@IoU=0.3 and R1@IoU=0.5, respectively.
- Abstract(参考訳): 本技術報告では,ECCV 2022におけるEgo4D Natural Language Queries (NLQ) Challengeに対するCONEアプローチについて述べる。
当社のモデルCONEは、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークです。
具体的には、長いビデオをスライディングウィンドウアプローチで候補ウィンドウに動的にスライスする。
CONE(1)は,NLクエリに関連する候補ウィンドウを事前フィルタリングすることで,コントラスト学習を通じてウィンドウ間の意味のばらつきを学習し,推論を高速化すると共に,コントラスト型視覚文事前学習モデルEgoVLPの強力なマルチモーダルアライメント能力を利用して,ウィンドウ内候補モーメントのランク付けを行う。
ブラインドテストセットでは、それぞれR1@IoU=0.3とR1@IoU=0.5の15.26と9.24を達成する。
関連論文リスト
- Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Beyond Empirical Windowing: An Attention-Based Approach for Trust
Prediction in Autonomous Vehicles [5.673263539863265]
ウィンドウ化は長い時系列データの局所解析を可能にする手法として広く利用されている。
本稿では,ウィンドウプロンプトとマスキングアテンション変換を用いたSelective Windowing Attention Network (SWAN)を提案する。
我々は、新しいマルチモーダル運転シミュレーションデータセットにおいて、信頼予測のタスク上でSWANを評価する。
論文 参考訳(メタデータ) (2023-12-15T21:07:19Z) - Coarse-to-Fine Dual Encoders are Better Frame Identification Learners [28.901323252846417]
フレーム識別は、文中のターゲット語に関連する意味的フレームを見つけることを目的としている。
我々は、$underlineCo$arse-to-$underlineF$ine $underlineF$rame and $underlineT$arget $underlineE$ncoders $underlineA$rchitectureを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:11:23Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。