Fugu-MT 論文翻訳(概要): End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning

論文の概要: End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning

arxiv url: http://arxiv.org/abs/2309.15683v1
Date: Wed, 27 Sep 2023 14:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 13:24:54.773029
Title: End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning
Title（参考訳）: 強化学習を用いたエンド・ツー・エンドストリーミングビデオテンポラルアクションセグメンテーション
Authors: Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng
Abstract要約: ビデオからのテンポラルアクションは、複数のアクションクラスを持つ長いビデオのためのフレーム認識タスクである。本稿では,Reinforce Learning (SVTAS-RL) を用いたエンドツーエンドのストリーミングビデオ時間行動を提案する。
参考スコア（独自算出の注目度）: 5.92039287997741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal Action Segmentation (TAS) from video is a kind of frame recognition task for long video with multiple action classes. As an video understanding task for long videos, current methods typically combine multi-modality action recognition models with temporal models to convert feature sequences to label sequences. This approach can only be applied to offline scenarios, which severely limits the TAS application. Therefore, this paper proposes an end-to-end Streaming Video Temporal Action Segmentation with Reinforce Learning (SVTAS-RL). The end-to-end SVTAS which regard TAS as an action segment clustering task can expand the application scenarios of TAS; and RL is used to alleviate the problem of inconsistent optimization objective and direction. Through extensive experiments, the SVTAS-RL model achieves a competitive performance to the state-of-the-art model of TAS on multiple datasets, and shows greater advantages on the ultra-long video dataset EGTEA. This indicates that our method can replace all current TAS models end-to-end and SVTAS-RL is more suitable for long video TAS. Code is availabel at https://github.com/Thinksky5124/SVTAS.
Abstract（参考訳）: ビデオからのテンポラリアクションセグメンテーション(tas)は、複数のアクションクラスを持つロングビデオのフレーム認識タスクの一種である。長いビデオの映像理解タスクとして、現在の手法は、多モードのアクション認識モデルと時間モデルを組み合わせて特徴系列をラベルシーケンスに変換する。このアプローチはオフラインのシナリオにのみ適用できるため、TASアプリケーションは非常に制限される。そこで本研究では,SVTAS-RL(Reinforce Learning)を用いたエンドツーエンドのストリーミングビデオテンポラルアクションセグメンテーションを提案する。 TASをアクションセグメントクラスタリングタスクとみなすエンドツーエンドのSVTASは、TASのアプリケーションシナリオを拡張し、RLは一貫性のない最適化目標と方向性の問題を軽減するために使用される。 SVTAS-RLモデルは、複数のデータセット上でのTASの最先端モデルと競合する性能を達成し、超長ビデオデータセットEGTEAにより大きな利点を示す。このことから,本手法は,従来のTASモデルをすべてエンドツーエンドに置き換えることが可能であり,SVTAS-RLの方が長時間ビデオTASに適していることが示唆された。コードはhttps://github.com/Thinksky5124/SVTASで利用可能である。

関連論文リスト

CTA: Cross-Task Alignment for Better Test Time Training [10.54024648915477]
テストタイムトレーニング(TTT)は、モデルロバスト性を高める効果的な方法として登場した。 CTA(Cross-Task Alignment)は,TTTを改善するための新しいアプローチである。いくつかのベンチマークデータセット上で、最先端技術よりもロバスト性や一般化が大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-07-07T17:33:20Z)
Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation [32.65111815620319]
我々は、VISモデルを強化するための新しいビデオ事前学習手法を提案する。私たちのイノベーションは、事前学習と微調整の段階の違いを減らすことに焦点を当てています。提案手法は,OVISデータセットの平均精度を4.0%向上させる。
論文参考訳（メタデータ） (2025-03-22T07:01:25Z)
TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳（メタデータ） (2025-03-21T08:00:29Z)
Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。 VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文参考訳（メタデータ） (2025-03-12T15:48:13Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文参考訳（メタデータ） (2024-01-11T04:59:44Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文参考訳（メタデータ） (2022-09-28T03:27:37Z)
An Efficient Framework for Few-shot Skeleton-based Temporal Action Segmentation [6.610414185789651]
テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T14:08:37Z)
Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文参考訳（メタデータ） (2022-06-27T18:02:29Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。