論文の概要: ALow-Cost Real-Time Framework for Industrial Action Recognition Using Foundation Models
- arxiv url: http://arxiv.org/abs/2403.08420v2
- Date: Fri, 29 Aug 2025 08:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.777617
- Title: ALow-Cost Real-Time Framework for Industrial Action Recognition Using Foundation Models
- Title(参考訳): 基礎モデルを用いた産業行動認識のためのアローコストリアルタイムフレームワーク
- Authors: Zhicheng Wang, Wensheng Liang, Ruiyan Zhuang, Shuai Li, Jianwei Tan, Xiaoguang Ma,
- Abstract要約: 産業環境における行動認識は、高いデプロイメントコスト、低いクロスシナリオの一般化、限られたリアルタイムパフォーマンスによる永続的な課題に直面している。
本稿では,LRIARと呼ばれる基礎モデルを用いた産業行動認識のための低コストリアルタイムフレームワークを提案し,認識精度と伝達性を向上させる。
- 参考スコア(独自算出の注目度): 8.654703129948901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition (AR) in industrial environments -- particularly for identifying actions and operational gestures -- faces persistent challenges due to high deployment costs, poor cross-scenario generalization, and limited real-time performance. To address these issues, we propose a low-cost real-time framework for industrial action recognition using foundation models, denoted as LRIAR, to enhance recognition accuracy and transferability while minimizing human annotation and computational overhead. The proposed framework constructs an automatically labeled dataset by coupling Grounding DINO with the pretrained BLIP-2 image encoder, enabling efficient and scalable action labeling. Leveraging the constructed dataset, we train YOLOv5 for real-time action detection, and a Vision Transformer (ViT) classifier is deceloped via LoRA-based fine-tuning for action classification. Extensive experiments conducted in real-world industrial settings validate the effectiveness of LRIAR, demonstrating consistent improvements over state-of-the-art methods in recognition accuracy, scenario generalization, and deployment efficiency.
- Abstract(参考訳): 産業環境におけるアクション認識(AR) - 特にアクションとオペレーションジェスチャの識別 - は、デプロイメントコストの高さ、クロスシナリオの一般化の貧弱、リアルタイムパフォーマンスの制限など、永続的な課題に直面している。
これらの課題に対処するため,LRIARと呼ばれる基礎モデルを用いた産業行動認識のための低コストリアルタイムフレームワークを提案し,人間のアノテーションと計算オーバーヘッドを最小限に抑えながら,認識精度と伝達性を向上させる。
提案フレームワークは,DINOと事前訓練したBLIP-2イメージエンコーダを結合して自動ラベル付きデータセットを構築する。
構築したデータセットを活用して、リアルタイムなアクション検出のためにYOLOv5をトレーニングし、視覚変換器(ViT)分類器をLoRAベースのアクション分類のための微調整によりデローピングする。
実世界の産業環境で実施された大規模な実験により、LRIARの有効性が検証され、認識精度、シナリオの一般化、デプロイメント効率において最先端の手法よりも一貫した改善が示された。
関連論文リスト
- Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map [50.21082069320818]
最小限の監督で高忠実度産業データセットを生成するための拡散型パイプラインを提案する。
提案手法では, 拡張有界箱表現の拡散モデルを用いて, 正確なセグメンテーションマスクを生成する。
その結果、拡散に基づく合成は、人工的な産業データと実世界の産業データとのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-05-06T15:21:36Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - Pretrained LLMs as Real-Time Controllers for Robot Operated Serial Production Line [5.647265893402412]
本研究では,大規模言語モデル(LLM),特に GPT-4 を,製造システム,特に移動ロボットスケジューリングを制御するための,単純で適応可能なソリューションとして用いることの実現可能性について検討する。
ロボットによる連続生産ラインにおいて,移動ロボットを異なるマシンに割り当てるLLMベースの制御フレームワークを導入し,システムスループットの観点からその性能を評価する。
MARL(Multi-Agent Reinforcement Learning)のような最先端の手法と同等のパフォーマンスを実現するが、大規模なリトレーニングを必要とせずに、同等のスループットを提供するという、明確な利点を提供する。
論文 参考訳(メタデータ) (2025-03-05T20:43:49Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z) - Interpretable Data-driven Anomaly Detection in Industrial Processes with ExIFFI [3.7516053899419104]
工業プロセスは、最終製品の生産を包含して、可能な限り業務を効率化することを目的としている。
産業5.0の出現を踏まえ、より望ましいアプローチは解釈可能な結果の提供である。
本稿では,ExIFFIの産業的応用として,EIF(Extended isolated Forest)異常検出のための高速かつ効率的な説明法の開発に焦点をあてた。
論文 参考訳(メタデータ) (2024-05-02T10:23:17Z) - Leveraging Foundation Model Automatic Data Augmentation Strategies and Skeletal Points for Hands Action Recognition in Industrial Assembly Lines [3.0992677770545254]
我々は,効率的な,高品質で,大規模なデータセット拡張を実現するために,産業用データセットを拡張する戦略を開発した。
また,この戦略を映像行動認識にも適用した。
実際の組立ラインの「ワイヤ挿入時の手の動き」シナリオでは、手動作認識の精度は98.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T02:55:06Z) - Efficiency at Scale: Investigating the Performance of Diminutive
Language Models in Clinical Tasks [2.834743715323873]
本稿では,臨床意思決定タスクにおけるPEFT法の適合性について検討する。
分析の結果,ほとんどのPEFT手法の性能はタスクによって大きく異なることがわかった。
臨床領域におけるPEFT法の有効性は明らかであり、特に低コストで社内の計算インフラで運用できる専門モデルでは顕著である。
論文 参考訳(メタデータ) (2024-02-16T11:30:11Z) - A Cost-Sensitive Transformer Model for Prognostics Under Highly
Imbalanced Industrial Data [1.6492989697868894]
本稿では,体系的なワークフローの一部として開発された新しいコスト感応型トランスフォーマーモデルを提案する。
その結果,最先端手法と比較して性能が大幅に向上した。
本研究は, 産業環境における故障予測の独特な課題に対処する上での本手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-01-16T15:09:53Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Deep Learning based pipeline for anomaly detection and quality
enhancement in industrial binder jetting processes [68.8204255655161]
異常検出は、通常の値空間とは異なる異常状態、インスタンス、あるいはデータポイントを検出する方法を記述する。
本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。
論文 参考訳(メタデータ) (2022-09-21T08:14:34Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Costs to Consider in Adopting NLP for Your Business [3.608765813727773]
パフォーマンス向上とモデル間のコストのトレードオフを示し、AIピボットビジネスのさらなる洞察を与えます。
特にリソース不足言語について、低コストモデルに関するさらなる研究を求めています。
論文 参考訳(メタデータ) (2020-12-16T13:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。