Fugu-MT 論文翻訳(概要): A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step Inference

論文の概要: A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step Inference

arxiv url: http://arxiv.org/abs/2306.14412v1
Date: Mon, 26 Jun 2023 04:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:52:38.284071
Title: A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step Inference
Title（参考訳）: CVPR'2023 AQTCチャレンジの解決策:マルチステップ推論のためのビデオアライメント
Authors: Chao Zhang, Shiwei Wu, Sirui Zhao, Tong Xu, Enhong Chen
Abstract要約: Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。マルチステップ推論を改善するために,映像アライメント向上のためのソリューションを提案する。 CVPR'2023 AQTCでは2位であった。
参考スコア（独自算出の注目度）: 51.26551806938455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Affordance-centric Question-driven Task Completion (AQTC) for Egocentric Assistant introduces a groundbreaking scenario. In this scenario, through learning instructional videos, AI assistants provide users with step-by-step guidance on operating devices. In this paper, we present a solution for enhancing video alignment to improve multi-step inference. Specifically, we first utilize VideoCLIP to generate video-script alignment features. Afterwards, we ground the question-relevant content in instructional videos. Then, we reweight the multimodal context to emphasize prominent features. Finally, we adopt GRU to conduct multi-step inference. Through comprehensive experiments, we demonstrate the effectiveness and superiority of our method, which secured the 2nd place in CVPR'2023 AQTC challenge. Our code is available at https://github.com/zcfinal/LOVEU-CVPR23-AQTC.
Abstract（参考訳）: Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。このシナリオでは、インストラクショナルビデオの学習を通じて、AIアシスタントがユーザに対して、オペレーティングシステムのステップバイステップガイダンスを提供する。本稿では,マルチステップ推論を改善するために,映像アライメントを向上するためのソリューションを提案する。具体的には,まずvideoclipを使用してビデオスクリプトアライメント機能を生成する。その後,質問関連コンテンツの授業ビデオ化を行う。そして、特徴を強調するために、マルチモーダルコンテキストを再重み付けします。最後に、GRUを多段階推論に採用する。 CVPR'2023 AQTCにおける第2位を獲得し,本手法の有効性と優位性を実証した。私たちのコードはhttps://github.com/zcfinal/LOVEU-CVPR23-AQTCで公開されています。

関連論文リスト

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning [17.820597831536322]
ビデオはビデオ内のすべてのイベントを記述するのに複雑なタスクであり、同時に時間的にそのイベントをローカライズする。以前のVideoLLMは、そのタスクをひとつのステップで解決しようとするが、その推論能力は利用できない。 We propose VidChain of Chain-of-Tasks and Dense-based Direct Preference (DPO)。 M-DPOは、ビデオLLMを評価指標と整合させ、メトリクスに整合した各タスクに対してきめ細かい監督を提供する。
論文参考訳（メタデータ） (2025-01-12T10:08:26Z)
Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。 LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文参考訳（メタデータ） (2024-09-22T18:40:55Z)
2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文参考訳（メタデータ） (2024-06-01T17:03:16Z)
Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis [5.4598424549754965]
本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。このタスクは、Woven Traffic Safetyのデータセットを用いて、交通安全の説明と分析を解決することを目的としている。私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
論文参考訳（メタデータ） (2024-04-12T04:08:21Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)
Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric Approach [51.424201533529114]
AQTC(Affordance-centric Question-driven Task Completion for Egocentric Assistant)は、AIアシスタントが指導ビデオやスクリプトから学習し、ユーザのステップバイステップをガイドするのに役立つ新しいタスクである。本稿では,AQTCを2段階のFunction-centricアプローチで処理し,関連するFunctionモジュールとFunction2Answerモジュールを用いて過去のステップに基づいて動作を予測する。
論文参考訳（メタデータ） (2022-06-20T07:02:23Z)
AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant [6.379158555341729]
Affordance-centric Question-driven Task Completionという新しいタスクを定義します。 AIアシスタントは、ユーザーをステップバイステップで導くために、指導ビデオやスクリプトから学ぶべきである。このタスクを支援するために、529の質問応答サンプルからなる新しいデータセットAssistQを構築した。
論文参考訳（メタデータ） (2022-03-08T17:07:09Z)
AssistSR: Affordance-centric Question-driven Video Segment Retrieval [4.047098915826058]
AQVSR(Affordance-centric Question-driven Video Segment Retrieval) AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
論文参考訳（メタデータ） (2021-11-30T01:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。