Fugu-MT 論文翻訳(概要): BigGait: Learning Gait Representation You Want by Large Vision Models

論文の概要: BigGait: Learning Gait Representation You Want by Large Vision Models

arxiv url: http://arxiv.org/abs/2402.19122v1
Date: Thu, 29 Feb 2024 13:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:57:31.974490
Title: BigGait: Learning Gait Representation You Want by Large Vision Models
Title（参考訳）: BigGait: 大規模ビジョンモデルで望むゲット表現を学習する
Authors: Dingqiang Ye, Chao Fan, Jingzhe Ma, Xiaoming Liu, Shiqi Yu
Abstract要約: 既存の歩行認識手法は、教師あり学習によって駆動されるタスク固有の上流に頼り、明確な歩行表現を提供する。本研究では,タスクに依存しないLVM(Large Vision Models)が生み出す全目的知識に基づいて,効果的な歩行表現を探索し,BigGaitと呼ばれるシンプルで効率的な歩行フレームワークを提案する。 CCPG, CAISA-B* および SUSTech1K の実験結果から,BigGait は自己ドメインタスクとクロスドメインタスクの両方において,従来の手法よりも有意に優れていたことが示唆された。
参考スコア（独自算出の注目度）: 13.540147393275774
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Gait recognition stands as one of the most pivotal remote identification technologies and progressively expands across research and industrial communities. However, existing gait recognition methods heavily rely on task-specific upstream driven by supervised learning to provide explicit gait representations, which inevitably introduce expensive annotation costs and potentially cause cumulative errors. Escaping from this trend, this work explores effective gait representations based on the all-purpose knowledge produced by task-agnostic Large Vision Models (LVMs) and proposes a simple yet efficient gait framework, termed BigGait. Specifically, the Gait Representation Extractor (GRE) in BigGait effectively transforms all-purpose knowledge into implicit gait features in an unsupervised manner, drawing from design principles of established gait representation construction approaches. Experimental results on CCPG, CAISA-B* and SUSTech1K indicate that BigGait significantly outperforms the previous methods in both self-domain and cross-domain tasks in most cases, and provides a more practical paradigm for learning the next-generation gait representation. Eventually, we delve into prospective challenges and promising directions in LVMs-based gait recognition, aiming to inspire future work in this emerging topic. The source code will be available at https://github.com/ShiqiYu/OpenGait.
Abstract（参考訳）: 歩行認識は最も重要なリモート識別技術の1つであり、研究や工業コミュニティに徐々に拡大している。しかし、既存の歩行認識手法は教師付き学習によって引き起こされるタスク固有の上流に大きく依存しており、明示的な歩行表現を提供しており、これは必然的に高価なアノテーションコストをもたらし、累積エラーを引き起こす可能性がある。この傾向から逃れて、本研究はタスク非依存大規模ビジョンモデル(lvms)が生み出す全目的知識に基づく効果的な歩行表現を探求し、biggaitと呼ばれる単純で効率的な歩行フレームワークを提案する。具体的には、BigGaitのGait Representation Extractor(GRE)は、すべての目的の知識を教師なしの方法で暗黙のMoit特徴に効果的に変換し、確立されたMoit表現構築アプローチの設計原則から導出する。 CCPG, CAISA-B* および SUSTech1K の実験結果から,BigGait は,ほとんどの場合において,自己ドメインタスクとクロスドメインタスクの両方において従来の手法よりも優れており,次世代の歩行表現を学習するためのより実用的なパラダイムを提供する。最終的に私たちは、LVMベースの歩行認識における将来的な課題と将来的な方向性を探求し、この新興トピックにおける将来の仕事を促すことを目指しています。ソースコードはhttps://github.com/shiqiyu/opengaitで入手できる。

関連論文リスト

GaitAdapt: Continual Learning for Evolving Gait Recognition [8.11771678547237]
本稿では,歩行認識能力の段階的向上を支援する連続歩行認識タスクであるGaitAdaptを提案する。また,歩行認識のための非再生連続学習手法であるGaitAdapterを提案する。 GitAdapterは、さまざまなタスクから取得した歩行知識を効果的に保持する。
論文参考訳（メタデータ） (2025-08-05T12:26:52Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models [16.21103558769559]
本研究は,下流認識タスクにおけるレイヤワイド表現の影響について検討する。 We propose a simple and universal baseline for LVM based gait recognition, called BiggerGait。 CCPG, CAISA-B*, SUSTech1K, CCGR_MINIの総合評価は, 内部およびクロスドメインタスクにおけるBiggerGaitの優位性を検証した。
論文参考訳（メタデータ） (2025-05-23T17:41:54Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文参考訳（メタデータ） (2025-02-25T09:26:12Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Disentangled Generative Graph Representation Learning [51.59824683232925]
本稿では,自己教師型学習フレームワークであるDiGGR(Disentangled Generative Graph Representation Learning)を紹介する。潜伏要因を学習し、それをグラフマスクモデリングのガイドとして活用することを目的としている。 2つの異なるグラフ学習タスクのための11の公開データセットの実験は、DiGGRが従来よりも一貫して多くの自己教師付きメソッドを上回っていることを示している。
論文参考訳（メタデータ） (2024-08-24T05:13:02Z)
OpenGait: A Comprehensive Benchmark Study for Gait Recognition towards Better Practicality [11.64292241875791]
われわれはまず,フレキシブルで効率的な歩行認識プラットフォームOpenGaitを開発した。また,OpenGaitを基盤として,近年の歩行認識の進展を再考するため,詳細なアブレーション実験を実施している。これらの知見にインスパイアされ、構造的に単純だが経験的に強力で実用的に堅牢なベースラインモデル3つを開発した。
論文参考訳（メタデータ） (2024-05-15T07:11:12Z)
Exploring Deep Models for Practical Gait Recognition [11.185716724976414]
我々は、最先端の屋外歩行認識のための深層モデルの構築方法について、統一的な視点を示す。具体的には、浅い歩行モデルのステレオタイプに挑戦し、明示的な時間的モデリングの優位性を実証する。提案されたCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは、Gait3DとGREWで大幅に性能が向上した。
論文参考訳（メタデータ） (2023-03-06T17:19:28Z)
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。 SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文参考訳（メタデータ） (2023-03-03T02:07:40Z)
Learning Gait Representation from Massive Unlabelled Walking Videos: A Benchmark [11.948554539954673]
コントラスト学習を伴う歩行認識のための大規模自己教師付きベンチマークを提案する。 1.02万個の歩行シーケンスからなる大規模歩行データセットGaitLU-1Mを収集した。そこで我々は, CASIA-B, OU-M, GREW, Gait3D の4つの広く使用されている歩行指標を用いて, 事前学習モデルの評価を行った。
論文参考訳（メタデータ） (2022-06-28T12:33:42Z)
Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。 GREWは、野生における歩行認識のための最初の大規模データセットである。 SPOSGaitはNASベースの最初の歩行認識モデルである。
論文参考訳（メタデータ） (2022-05-05T14:57:39Z)
HEATGait: Hop-Extracted Adjacency Technique in Graph Convolution based Gait Recognition [0.0]
HEATGaitは,効率的なホップ抽出技術により既存のマルチスケール畳み込みグラフを改善する歩行認識システムである。本稿では,CASIA-BCN 歩行データセット上でのモデルに基づく歩行認識において,ResG を用いた最先端性能を実現する強力な特徴抽出器を提案する。
論文参考訳（メタデータ） (2022-04-21T16:13:58Z)
Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文参考訳（メタデータ） (2021-02-22T18:56:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。