論文の概要: PrAViC: Probabilistic Adaptation Framework for Real-Time Video Classification
- arxiv url: http://arxiv.org/abs/2406.11443v1
- Date: Mon, 17 Jun 2024 11:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-18 15:01:35.498830
- Title: PrAViC: Probabilistic Adaptation Framework for Real-Time Video Classification
- Title(参考訳): PrAViC:リアルタイムビデオ分類のための確率的適応フレームワーク
- Authors: Magdalena Trędowicz, Łukasz Struski, Marcin Mazur, Szymon Janusz, Arkadiusz Lewicki, Jacek Tabor,
- Abstract要約: 本稿では,ビデオデータのオンライン分類問題を扱うための,新しい,統一的で理論に基づく適応フレームワークを提案する。
本研究の最初の段階は、シーケンシャルデータの分類理論のための堅牢な数学的基盤を確立することである。
次のフェーズでは、オフラインモデルをオンラインおよびリカレント操作に適応するための、簡単で容易に実装可能な方法を示す。
- 参考スコア(独自算出の注目度): 7.380324916960336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video processing is generally divided into two main categories: processing of the entire video, which typically yields optimal classification outcomes, and real-time processing, where the objective is to make a decision as promptly as possible. The latter is often driven by the need to identify rapidly potential critical or dangerous situations. These could include machine failure, traffic accidents, heart problems, or dangerous behavior. Although the models dedicated to the processing of entire videos are typically well-defined and clearly presented in the literature, this is not the case for online processing, where a plethora of hand-devised methods exist. To address this, we present \our{}, a novel, unified, and theoretically-based adaptation framework for dealing with the online classification problem for video data. The initial phase of our study is to establish a robust mathematical foundation for the theory of classification of sequential data, with the potential to make a decision at an early stage. This allows us to construct a natural function that encourages the model to return an outcome much faster. The subsequent phase is to demonstrate a straightforward and readily implementable method for adapting offline models to online and recurrent operations. Finally, by comparing the proposed approach to the non-online state-of-the-art baseline, it is demonstrated that the use of \our{} encourages the network to make earlier classification decisions without compromising accuracy.
- Abstract(参考訳): ビデオ処理は一般的に2つの主要なカテゴリに分けられる: ビデオ全体の処理は、通常最適な分類結果をもたらすもので、リアルタイム処理は、できるだけ迅速に意思決定することを目的としている。
後者は、しばしば、急速に潜在的に危険または危険な状況を特定する必要性によって引き起こされる。
これには、機械の故障、交通事故、心臓の問題、危険な行動が含まれる。
ビデオ全体の処理専用のモデルは、典型的にはよく定義され、文献で明確に提示されるが、これは、手書きの手法が多数存在するオンライン処理には当てはまらない。
そこで本稿では,ビデオデータのオンライン分類問題に対処するための,新しい,統一的で理論に基づく適応フレームワークである \our{} を提案する。
本研究の最初の段階は、シーケンシャルデータの分類理論の堅牢な数学的基盤を確立することであり、早期に決定を下す可能性を秘めている。
これにより、モデルが結果を返すのをずっと早く促す自然な関数を構築することができます。
次のフェーズでは、オフラインモデルをオンラインおよびリカレント操作に適応するための、簡単で容易に実装可能な方法を示す。
最後に、提案したアプローチを非オンラインのベースラインと比較することにより、‘our{}’の使用により、精度を損なうことなく、以前の分類決定をネットワークに促すことが実証された。
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - MPRU: Modular Projection-Redistribution Unlearning as Output Filter for Classification Pipelines [23.370444162993707]
本稿では,機械アンラーニング(MU)へのインセンティブ的アプローチを提案する。
学習は、最後のトレーニングシーケンスを逆転させることで行うことができる。これは、モデルの最後にプロジェクション-再配布層を追加することで実装される。
実験結果から,計算コストの低減を図った完全再学習モデルと一貫した出力が得られた。
論文 参考訳(メタデータ) (2025-10-30T08:09:37Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - Bayesian Test-Time Adaptation for Vision-Language Models [51.93247610195295]
CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。
我々は、クラス埋め込みを継続的に更新して妥当性を適応させる新しいアプローチ、textbfBayesian textbfClass textbfAdaptation (BCA)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:42:11Z) - ODEStream: A Buffer-Free Online Learning Framework with ODE-based Adaptor for Streaming Time Series Forecasting [11.261457967759688]
ODEStreamはバッファフリーの連続的な学習フレームワークで、データ内の時間的依存関係をキャプチャするための時間的分離レイヤを備えている。
連続したデータ表現を生成し、データストリーミングシナリオにおける動的変更へのシームレスな適応を可能にする。
我々のアプローチは、過去のデータの動的および分布が時間とともにどのように変化するかを学ぶことに集中し、ストリーミングシーケンスの直接処理を容易にする。
論文 参考訳(メタデータ) (2024-11-11T22:36:33Z) - Random Representations Outperform Online Continually Learned Representations [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
我々の手法はRanDumbと呼ばれ、あらゆるオンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Adaptive Training Distributions with Scalable Online Bilevel
Optimization [26.029033134519604]
Webスケールコーパスで事前訓練された大規模なニューラルネットワークは、現代の機械学習の中心である。
本研究は,対象とする試験条件を反映したデータのサンプルが少なければ,事前学習分布を変更することを検討する。
本稿では、この設定をオンライン二段階最適化問題として最近定式化したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T18:01:29Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Direct Embedding of Temporal Network Edges via Time-Decayed Line Graphs [51.51417735550026]
時間的ネットワーク上での機械学習の方法は、一般的に2つの制限のうちの少なくとも1つを示す。
ネットワークのライングラフは,各インタラクションのノードを含むもので,インタラクション間の時間差に基づいて,このグラフのエッジを重み付けする。
実世界のネットワークにおける実験結果から,エッジ分類と時間リンク予測の両方において,本手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2022-09-30T18:24:13Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - Network Estimation by Mixing: Adaptivity and More [2.3478438171452014]
我々は、利用可能な任意のモデルを利用して、個々のパフォーマンスを改善する混合戦略を提案する。
提案手法は計算効率が高く,チューニングがほとんどない。
提案手法は,真のモデルが個々の候補に含まれる場合のオラクル推定と同等に動作することを示す。
論文 参考訳(メタデータ) (2021-06-05T05:17:04Z) - Online Feature Screening for Data Streams with Concept Drift [8.807587076209566]
本研究は分類データセットに焦点を当てる。
実験の結果,提案手法はオフライン版と同じ特徴を高速かつ少ないストレージで生成できることがわかった。
その結果, 統合モデル適応によるオンラインスクリーニング手法は, コンセプトドリフト特性を有するデータストリーム上でのモデル適応よりも, 真の特徴検出率が高いことがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:16:15Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - A Flexible Selection Scheme for Minimum-Effort Transfer Learning [27.920304852537534]
ファインチューニングは、トレーニング済みの畳み込みネットワークに含まれる知識を活用して、新しい視覚認識タスクを実現する方法として人気がある。
フレキシブルチューニング(flex-tuning)と呼ばれる,ネットワークの個々のユニットをチューニング可能な,新たなファインチューニング方式を導入する。
微調整された個々のユニットは、その単純さにもかかわらず、適応手法として非常に良い結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-27T08:57:30Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。