論文の概要: LIGAR: Lightweight General-purpose Action Recognition
- arxiv url: http://arxiv.org/abs/2108.13153v1
- Date: Mon, 30 Aug 2021 12:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:35:06.687200
- Title: LIGAR: Lightweight General-purpose Action Recognition
- Title(参考訳): LIGAR:軽量汎用アクション認識
- Authors: Evgeny Izutov
- Abstract要約: 本稿では、上記の課題に対処するためのネットワークアーキテクチャとトレーニングパイプラインの設計に焦点を当てる。
我々のアーキテクチャは、従来のアーキテクチャから最善を尽くし、外見に基づくアクション認識タスクだけでなく、モーションベースの問題でも成功する能力をもたらす。
効率的なエッジ指向推論のために、訓練されたすべてのモデルはOpenVINOフォーマットにエクスポートできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing amount of different practical tasks in a video understanding problem
has addressed the great challenge aiming to design an universal solution, which
should be available for broad masses and suitable for the demanding
edge-oriented inference. In this paper we are focused on designing a network
architecture and a training pipeline to tackle the mentioned challenges. Our
architecture takes the best from the previous ones and brings the ability to be
successful not only in appearance-based action recognition tasks but in
motion-based problems too. Furthermore, the induced label noise problem is
formulated and Adaptive Clip Selection (ACS) framework is proposed to deal with
it. Together it makes the LIGAR framework the general-purpose action
recognition solution. We also have reported the extensive analysis on the
general and gesture datasets to show the excellent trade-off between the
performance and the accuracy in comparison to the state-of-the-art solutions.
Training code is available at:
https://github.com/openvinotoolkit/training_extensions. For the efficient
edge-oriented inference all trained models can be exported into the OpenVINO
format.
- Abstract(参考訳): ビデオ理解問題における様々な実践的タスクの量の増加は、幅広いマスで利用でき、エッジ指向推論の要求に適したユニバーサルソリューションを設計するための大きな課題に対処してきた。
本稿では,上記の課題に対処するためのネットワークアーキテクチャとトレーニングパイプラインの設計に焦点を当てる。
我々のアーキテクチャは、従来のアーキテクチャから最善を尽くし、外見に基づくアクション認識タスクだけでなく、モーションベースの問題でも成功する能力をもたらす。
さらに、誘導ラベルノイズ問題を定式化し、それに対応するために適応クリップ選択(ACS)フレームワークを提案する。
これにより、LIGARフレームワークは汎用的なアクション認識ソリューションとなる。
また,汎用とジェスチャーのデータセットに関する広範な分析を報告し,最先端のソリューションと比較して,性能と精度の優れたトレードオフを示す。
トレーニングコードは、https://github.com/openvinotoolkit/training_extensionsで利用可能である。
効率的なエッジ指向推論のために、訓練されたすべてのモデルはOpenVINOフォーマットにエクスポートできる。
関連論文リスト
- Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM [24.99233476254989]
FlexiCrackNetは、従来のディープラーニングパラダイムを大規模な事前学習モデルの強みとシームレスに統合する、新しいパイプラインである。
実験の結果、FlexiCrackNetは最先端の手法より優れ、ゼロショットの一般化、計算効率、セグメンテーションの堅牢性に優れていた。
これらの進歩は、自動クラック検出と包括的な構造的健康モニタリングシステムにおける現実的な応用のためのFlexiCrackNetの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-31T02:37:09Z) - Dynamic Few-Shot Learning for Knowledge Graph Question Answering [3.116231004560997]
大規模言語モデルが知識グラフ(KGQA)に対する革新的質問回答の機会を提示する
このギャップを埋めるために、ファインチューニングやアドホックなアーキテクチャに依存し、良い結果を得るが、領域外分布の一般化は限られるソリューションが提案されている。
本研究では,DFL(Dynamic Few-Shot Learning)と呼ばれる新しい手法を提案する。
DFLは、文脈内学習の効率性と意味的類似性を統合し、最先端の性能を持つKGQAの一般的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-01T15:59:17Z) - GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - LAMBO: Large AI Model Empowered Edge Intelligence [71.56135386994119]
次世代エッジインテリジェンスは、オフロード技術を通じて様々なアプリケーションに恩恵をもたらすことが期待されている。
従来のオフロードアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。
我々は、これらの問題を解決するための10億以上のパラメータを持つLarge AI Model-Based Offloading (LAMBO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:25:42Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。