論文の概要: A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step
Inference
- arxiv url: http://arxiv.org/abs/2306.14412v1
- Date: Mon, 26 Jun 2023 04:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:52:38.284071
- Title: A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step
Inference
- Title(参考訳): CVPR'2023 AQTCチャレンジの解決策:マルチステップ推論のためのビデオアライメント
- Authors: Chao Zhang, Shiwei Wu, Sirui Zhao, Tong Xu, Enhong Chen
- Abstract要約: Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。
マルチステップ推論を改善するために,映像アライメント向上のためのソリューションを提案する。
CVPR'2023 AQTCでは2位であった。
- 参考スコア(独自算出の注目度): 51.26551806938455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance-centric Question-driven Task Completion (AQTC) for Egocentric
Assistant introduces a groundbreaking scenario. In this scenario, through
learning instructional videos, AI assistants provide users with step-by-step
guidance on operating devices. In this paper, we present a solution for
enhancing video alignment to improve multi-step inference. Specifically, we
first utilize VideoCLIP to generate video-script alignment features.
Afterwards, we ground the question-relevant content in instructional videos.
Then, we reweight the multimodal context to emphasize prominent features.
Finally, we adopt GRU to conduct multi-step inference. Through comprehensive
experiments, we demonstrate the effectiveness and superiority of our method,
which secured the 2nd place in CVPR'2023 AQTC challenge. Our code is available
at https://github.com/zcfinal/LOVEU-CVPR23-AQTC.
- Abstract(参考訳): Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。
このシナリオでは、インストラクショナルビデオの学習を通じて、AIアシスタントがユーザに対して、オペレーティングシステムのステップバイステップガイダンスを提供する。
本稿では,マルチステップ推論を改善するために,映像アライメントを向上するためのソリューションを提案する。
具体的には,まずvideoclipを使用してビデオスクリプトアライメント機能を生成する。
その後,質問関連コンテンツの授業ビデオ化を行う。
そして、特徴を強調するために、マルチモーダルコンテキストを再重み付けします。
最後に、GRUを多段階推論に採用する。
CVPR'2023 AQTCにおける第2位を獲得し,本手法の有効性と優位性を実証した。
私たちのコードはhttps://github.com/zcfinal/LOVEU-CVPR23-AQTCで公開されています。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [25.235404527487784]
ビデオパノプティクスのセグメンテーションは、多くのダウンストリームアプリケーションの基礎となる難しいタスクである。
DVISが提案するデカップリング戦略は,時間情報をより効果的に活用できると考えている。
第2回PVUWチャレンジのVPSトラックでは,それぞれ51.4と53.7のVPQスコアを達成し,第2回PVUWチャレンジのVPSトラックで第1位となった。
論文 参考訳(メタデータ) (2023-06-07T01:24:48Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - An Empirical Study and Analysis of Learning Generalizable Manipulation
Skill in the SAPIEN Simulator [12.677245428522834]
本稿では,SAPIEN ManiSkill Challenge 2021のノーインタラクショントラックについて概説する。
このアプローチは、主に2つのステップからなるエンドツーエンドのパイプラインに従っています。
我々は,ロボットシミュレータの動作スコアを,広帯域のトランスフォーマーネットワークを介して予測するために,これらの特徴を取り入れた。
論文 参考訳(メタデータ) (2022-08-31T05:45:55Z) - Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric
Approach [51.424201533529114]
AQTC(Affordance-centric Question-driven Task Completion for Egocentric Assistant)は、AIアシスタントが指導ビデオやスクリプトから学習し、ユーザのステップバイステップをガイドするのに役立つ新しいタスクである。
本稿では,AQTCを2段階のFunction-centricアプローチで処理し,関連するFunctionモジュールとFunction2Answerモジュールを用いて過去のステップに基づいて動作を予測する。
論文 参考訳(メタデータ) (2022-06-20T07:02:23Z) - AssistQ: Affordance-centric Question-driven Task Completion for
Egocentric Assistant [6.379158555341729]
Affordance-centric Question-driven Task Completionという新しいタスクを定義します。
AIアシスタントは、ユーザーをステップバイステップで導くために、指導ビデオやスクリプトから学ぶべきである。
このタスクを支援するために、529の質問応答サンプルからなる新しいデータセットAssistQを構築した。
論文 参考訳(メタデータ) (2022-03-08T17:07:09Z) - AssistSR: Affordance-centric Question-driven Video Segment Retrieval [4.047098915826058]
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。