Fugu-MT 論文翻訳(概要): PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization

論文の概要: PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization

arxiv url: http://arxiv.org/abs/2403.18915v1
Date: Wed, 27 Mar 2024 18:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 20:13:44.237565
Title: PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization
Title（参考訳）: PLOT-TAL -- 短時間時間行動定位のための最適移動を用いたプロンプト学習
Authors: Edward Fish, Jon Weinbren, Andrew Gilbert,
Abstract要約: 本稿では,時間的行動ローカライゼーション(TAL)への新たなアプローチを提案する。本稿では,最適輸送により強化されたマルチプロンプト学習フレームワークを提案する。本実験は,数ショット設定における動作の局所化精度とロバスト性を大幅に改善したことを示す。
参考スコア（独自算出の注目度）: 7.682021482980697
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces a novel approach to temporal action localization (TAL) in few-shot learning. Our work addresses the inherent limitations of conventional single-prompt learning methods that often lead to overfitting due to the inability to generalize across varying contexts in real-world videos. Recognizing the diversity of camera views, backgrounds, and objects in videos, we propose a multi-prompt learning framework enhanced with optimal transport. This design allows the model to learn a set of diverse prompts for each action, capturing general characteristics more effectively and distributing the representation to mitigate the risk of overfitting. Furthermore, by employing optimal transport theory, we efficiently align these prompts with action features, optimizing for a comprehensive representation that adapts to the multifaceted nature of video data. Our experiments demonstrate significant improvements in action localization accuracy and robustness in few-shot settings on the standard challenging datasets of THUMOS-14 and EpicKitchens100, highlighting the efficacy of our multi-prompt optimal transport approach in overcoming the challenges of conventional few-shot TAL methods.
Abstract（参考訳）: 本稿では,時間的行動ローカライゼーション(TAL)への新しいアプローチについて紹介する。我々の研究は、現実世界のビデオにおける様々なコンテキストをまたいで一般化できないため、過度に適合する従来の単発学習手法の固有の限界に対処する。ビデオ中のカメラビュー,背景,オブジェクトの多様性を認識し,最適なトランスポートで拡張されたマルチプロンプト学習フレームワークを提案する。この設計により、モデルは各アクションに対する多様なプロンプトのセットを学習し、一般的な特徴をより効果的に捉え、過剰適合のリスクを軽減するために表現を分散することができる。さらに,映像データの多面的性質に適応する包括的表現を最適化し,これらのプロンプトを行動特徴と効率的に整合させる。実験では,THUMOS-14とEpicKitchens100の標準課題データセット上で,動作のローカライズ精度とロバスト性を大幅に向上させ,従来の数ショットTAL手法の課題を克服するためのマルチプロンプト最適輸送手法の有効性を強調した。

関連論文リスト

Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文参考訳（メタデータ） (2024-11-18T01:25:58Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文参考訳（メタデータ） (2024-08-13T04:18:32Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文参考訳（メタデータ） (2024-01-01T08:54:18Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。