Fugu-MT 論文翻訳(概要): Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

論文の概要: Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

arxiv url: http://arxiv.org/abs/2206.14381v1
Date: Wed, 29 Jun 2022 03:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 03:58:31.899697
Title: Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
Title（参考訳）: マルチインスタンステキスト検索用EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
Authors: Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
Abstract要約: EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。まず、文を動詞や名詞に対応する意味的役割にパースし、自己意図を利用して意味的役割の文脈化されたビデオ特徴を利用する。
参考スコア（独自算出の注目度）: 66.2075707179047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this report, we present our approach for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022. We first parse sentences into semantic roles corresponding to verbs and nouns; then utilize self-attentions to exploit semantic role contextualized video features along with textual features via triplet losses in multiple embedding spaces. Our method overpasses the strong baseline in normalized Discounted Cumulative Gain (nDCG), which is more valuable for semantic similarity. Our submission is ranked 3rd for nDCG and ranked 4th for mAP.
Abstract（参考訳）: 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。まず、文を動詞と名詞に対応する意味的役割にパースし、その後、意味的役割の文脈化されたビデオ特徴と、複数の埋め込み空間における三重項損失によるテキスト特徴を利用する。本手法は, 意味的類似性が高い正規化分散累積ゲイン(nDCG)において, 強基底線を超越する。私たちの応募はndcgで3位、mapで4位です。

関連論文リスト

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations [10.409447852574907]
SPOTは、停止点という社会学的概念を再現可能なNLPタスクに翻訳する最初の注釈付きコーパスである。このコーパスには、フランスのFacebookコメントを手動で注釈付けした43,305件が含まれている。我々は、様々なプロンプト戦略の下で、細調整エンコーダモデル(CamemBERT)と命令調整LLMをベンチマークする。
論文参考訳（メタデータ） (2025-11-10T18:54:40Z)
EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文参考訳（メタデータ） (2025-08-31T09:03:25Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval [24.764393859378544]
ビデオ検索のためのモダリティ補助概念(MAC-VR)を紹介する。我々は、潜在空間におけるモダリティの整合と、補助潜在概念の学習と整合性を提案する。 5つの多様なデータセットについて広範な実験を行う。
論文参考訳（メタデータ） (2025-04-02T10:56:01Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文参考訳（メタデータ） (2024-04-22T10:23:59Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Grounded Video Situation Recognition [37.279915290069326]
本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
論文参考訳（メタデータ） (2022-10-19T18:38:10Z)
Constructing Phrase-level Semantic Labels to Form Multi-Grained Supervision for Image-Text Retrieval [48.20798265640068]
テキスト中のミスマッチしたユニットの識別をより良くするためのフレーズレベルの監視を導入する。一致した文のテキストシーングラフを構築し,フレーズレベルのラベルとしてエンティティとトリプルを抽出する。トレーニングでは,グローバルな視点とローカルな視点の両方から,マルチスケールのマッチング損失を提案する。
論文参考訳（メタデータ） (2021-09-12T14:21:15Z)
Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文参考訳（メタデータ） (2021-04-09T14:01:36Z)
Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文参考訳（メタデータ） (2020-05-15T07:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。