論文の概要: Low-Cost and Real-Time Industrial Human Action Recognitions Based on
Large-Scale Foundation Models
- arxiv url: http://arxiv.org/abs/2403.08420v1
- Date: Wed, 13 Mar 2024 11:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-14 14:43:34.712743
- Title: Low-Cost and Real-Time Industrial Human Action Recognitions Based on
Large-Scale Foundation Models
- Title(参考訳): 低コスト・実時間産業人間行動認識
大規模ファンデーションモデル
- Authors: Wensheng Liang, Ruiyan Zhuang, Xianwei Shi, Shuai Li, Zhicheng Wang,
and Xiaoguang Ma
- Abstract要約: 各種LSFMと軽量手法を併用した大規模基礎モデル(LSFM)を用いたIHAR法を提案する。
大規模製造ラインの総合的な試験により, 提案手法は, 雇用コストの大幅な削減, 実時間性能の向上, 精度, 一般化能力の向上を実現した。
- 参考スコア(独自算出の注目度): 12.836778822849734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial managements, including quality control, cost and safety
optimization, etc., heavily rely on high quality industrial human action
recognitions (IHARs) which were hard to be implemented in large-scale
industrial scenes due to their high costs and poor real-time performance. In
this paper, we proposed a large-scale foundation model(LSFM)-based IHAR method,
wherein various LSFMs and lightweight methods were jointly used, for the first
time, to fulfill low-cost dataset establishment and real-time IHARs.
Comprehensive tests on in-situ large-scale industrial manufacturing lines
elucidated that the proposed method realized great reduction on employment
costs, superior real-time performance, and satisfactory accuracy and
generalization capabilities, indicating its great potential as a backbone IHAR
method, especially for large-scale industrial applications.
- Abstract(参考訳): 品質管理、コストと安全性の最適化などの産業経営は、高コストと低リアルタイム性能のために大規模産業シーンで実施が困難であった高品質な産業人間行動認識(IHAR)に大きく依存している。
本稿では,低コストデータセット構築とリアルタイムIHARを実現するために,LSFMを用いた大規模基盤モデル (LSFM) を提案する。
大規模生産ラインの総合的な試験により, 提案手法は雇用コストの大幅な削減, リアルタイム性能の向上, 良好な精度と一般化能力を実現し, 特に大規模産業用途において, バックボーンIHAR法としての可能性を示した。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Synthetic Industrial Object Detection: GenAI vs. Feature-Based Methods [5.278929538141005]
我々は、特徴ベースの手法、生成AI(GenAI)、古典的なレンダリングアプローチを含む、ドメインランダム化(DR)およびドメイン適応(DA)テクニックをベンチマークする。
本評価では,低レベルの特徴アライメントと高レベルの特徴アライメントの有効性,および実世界の文脈から生成されたプロンプトによって誘導される拡散に基づくDA法について検討する。
その結果、十分な可変性を持つレンダリングベースデータが、輝度ベースや知覚的ハッシュフィルタリングといったよりシンプルな特徴ベースのメソッドとして利用可能である場合、精度と資源効率の両方においてより複雑なGenAIベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-28T14:51:08Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - DRTA: Dynamic Reward Scaling for Reinforcement Learning in Time Series Anomaly Detection [7.185726339205792]
時系列データの異常検出は、ファイナンス、ヘルスケア、センサーネットワーク、産業監視におけるアプリケーションにとって重要である。
本稿では,動的報酬形成,変分オートエンコーダ(VAE),DRTAと呼ばれるアクティブラーニングを統合した強化学習ベースのフレームワークを提案する。
提案手法は,VAEに基づく再構成誤りと分類報酬の効果を動的にスケーリングすることにより,探索と利用のバランスをとる適応報酬機構を用いる。
論文 参考訳(メタデータ) (2025-08-25T20:39:49Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map [50.21082069320818]
最小限の監督で高忠実度産業データセットを生成するための拡散型パイプラインを提案する。
提案手法では, 拡張有界箱表現の拡散モデルを用いて, 正確なセグメンテーションマスクを生成する。
その結果、拡散に基づく合成は、人工的な産業データと実世界の産業データとのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-05-06T15:21:36Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - Pretrained LLMs as Real-Time Controllers for Robot Operated Serial Production Line [5.647265893402412]
本研究では,大規模言語モデル(LLM),特に GPT-4 を,製造システム,特に移動ロボットスケジューリングを制御するための,単純で適応可能なソリューションとして用いることの実現可能性について検討する。
ロボットによる連続生産ラインにおいて,移動ロボットを異なるマシンに割り当てるLLMベースの制御フレームワークを導入し,システムスループットの観点からその性能を評価する。
MARL(Multi-Agent Reinforcement Learning)のような最先端の手法と同等のパフォーマンスを実現するが、大規模なリトレーニングを必要とせずに、同等のスループットを提供するという、明確な利点を提供する。
論文 参考訳(メタデータ) (2025-03-05T20:43:49Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z) - Interpretable Data-driven Anomaly Detection in Industrial Processes with ExIFFI [3.7516053899419104]
工業プロセスは、最終製品の生産を包含して、可能な限り業務を効率化することを目的としている。
産業5.0の出現を踏まえ、より望ましいアプローチは解釈可能な結果の提供である。
本稿では,ExIFFIの産業的応用として,EIF(Extended isolated Forest)異常検出のための高速かつ効率的な説明法の開発に焦点をあてた。
論文 参考訳(メタデータ) (2024-05-02T10:23:17Z) - Leveraging Foundation Model Automatic Data Augmentation Strategies and Skeletal Points for Hands Action Recognition in Industrial Assembly Lines [3.0992677770545254]
我々は,効率的な,高品質で,大規模なデータセット拡張を実現するために,産業用データセットを拡張する戦略を開発した。
また,この戦略を映像行動認識にも適用した。
実際の組立ラインの「ワイヤ挿入時の手の動き」シナリオでは、手動作認識の精度は98.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T02:55:06Z) - Efficiency at Scale: Investigating the Performance of Diminutive
Language Models in Clinical Tasks [2.834743715323873]
本稿では,臨床意思決定タスクにおけるPEFT法の適合性について検討する。
分析の結果,ほとんどのPEFT手法の性能はタスクによって大きく異なることがわかった。
臨床領域におけるPEFT法の有効性は明らかであり、特に低コストで社内の計算インフラで運用できる専門モデルでは顕著である。
論文 参考訳(メタデータ) (2024-02-16T11:30:11Z) - A Cost-Sensitive Transformer Model for Prognostics Under Highly
Imbalanced Industrial Data [1.6492989697868894]
本稿では,体系的なワークフローの一部として開発された新しいコスト感応型トランスフォーマーモデルを提案する。
その結果,最先端手法と比較して性能が大幅に向上した。
本研究は, 産業環境における故障予測の独特な課題に対処する上での本手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-01-16T15:09:53Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Deep Learning based pipeline for anomaly detection and quality
enhancement in industrial binder jetting processes [68.8204255655161]
異常検出は、通常の値空間とは異なる異常状態、インスタンス、あるいはデータポイントを検出する方法を記述する。
本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。
論文 参考訳(メタデータ) (2022-09-21T08:14:34Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Costs to Consider in Adopting NLP for Your Business [3.608765813727773]
パフォーマンス向上とモデル間のコストのトレードオフを示し、AIピボットビジネスのさらなる洞察を与えます。
特にリソース不足言語について、低コストモデルに関するさらなる研究を求めています。
論文 参考訳(メタデータ) (2020-12-16T13:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。