論文の概要: Can Vision-Language Models Understand Construction Workers? An Exploratory Study
- arxiv url: http://arxiv.org/abs/2601.10835v1
- Date: Thu, 15 Jan 2026 20:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.282179
- Title: Can Vision-Language Models Understand Construction Workers? An Exploratory Study
- Title(参考訳): ヴィジュアル・ランゲージモデルでは建設作業員の理解は可能か? : 探索的研究
- Authors: Hieu Bui, Nathaniel E. Chodosh, Arash Tavakoli,
- Abstract要約: VLM(Vision-Language Models)は、広範囲なドメイン固有の訓練をすることなく、人間の行動を認識する能力を提供する。
この機能は、ラベル付きデータが不足している建設領域で特に魅力的である。
静的サイト画像から建設作業者の行動や感情を検出するために, 3つの主要なVLM, GPT-4o, Florence 2, LLaVa-1.5の性能を評価した。
- 参考スコア(独自算出の注目度): 4.632634202419464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As robotics become increasingly integrated into construction workflows, their ability to interpret and respond to human behavior will be essential for enabling safe and effective collaboration. Vision-Language Models (VLMs) have emerged as a promising tool for visual understanding tasks and offer the potential to recognize human behaviors without extensive domain-specific training. This capability makes them particularly appealing in the construction domain, where labeled data is scarce and monitoring worker actions and emotional states is critical for safety and productivity. In this study, we evaluate the performance of three leading VLMs, GPT-4o, Florence 2, and LLaVa-1.5, in detecting construction worker actions and emotions from static site images. Using a curated dataset of 1,000 images annotated across ten action and ten emotion categories, we assess each model's outputs through standardized inference pipelines and multiple evaluation metrics. GPT-4o consistently achieved the highest scores across both tasks, with an average F1-score of 0.756 and accuracy of 0.799 in action recognition, and an F1-score of 0.712 and accuracy of 0.773 in emotion recognition. Florence 2 performed moderately, with F1-scores of 0.497 for action and 0.414 for emotion, while LLaVa-1.5 showed the lowest overall performance, with F1-scores of 0.466 for action and 0.461 for emotion. Confusion matrix analyses revealed that all models struggled to distinguish semantically close categories, such as collaborating in teams versus communicating with supervisors. While the results indicate that general-purpose VLMs can offer a baseline capability for human behavior recognition in construction environments, further improvements, such as domain adaptation, temporal modeling, or multimodal sensing, may be needed for real-world reliability.
- Abstract(参考訳): ロボットがますます建設ワークフローに統合されるにつれて、人間の振る舞いを解釈し、反応する能力は、安全かつ効果的なコラボレーションの実現に不可欠である。
VLM(Vision-Language Models)は、視覚的理解タスクのための有望なツールとして登場し、広範囲なドメイン固有のトレーニングなしに人間の行動を認識する能力を提供する。
この能力は、ラベル付きデータが不足している建設領域において特に魅力的であり、労働者の行動や感情状態の監視が安全と生産性に不可欠である。
本研究では,3つの主要VLM(GPT-4o,Florence 2,LLaVa-1.5)の性能評価を行った。
10のアクションと10の感情カテゴリにアノテートされた1,000のイメージのキュレートされたデータセットを使用して、標準化された推論パイプラインと複数の評価指標を通して、各モデルのアウトプットを評価する。
GPT-4oは、平均F1スコアが0.756、アクション認識が0.799、F1スコアが0.712、感情認識が0.773である。
F1スコアは0.497、感情は0.414、LLaVa-1.5は0.466、感情は0.461である。
コンフュージョンマトリクス分析により、すべてのモデルが、チーム内でのコラボレーションや監督者とのコミュニケーションなど、セマンティックに密接なカテゴリを区別するのに苦労したことが明らかとなった。
これらの結果から,建設環境における人間の行動認識のベースラインとして汎用VLMが有効であることを示す一方で,ドメイン適応や時間的モデリング,マルチモーダルセンシングといったさらなる改良が現実の信頼性に必要である可能性が示唆された。
関連論文リスト
- IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。
我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T22:15:59Z) - Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0]
大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文 参考訳(メタデータ) (2025-06-14T20:14:02Z) - Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。
我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。
結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation [39.88401703956412]
VIEScoreは、条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainableメトリックである。
VIEScore (GPT4-o) は人間の評価と0.4のスピアマン相関を達成し, 人と人の相関は0.45である。
VIEScore (オープンソースMLLM) は合成画像の評価において GPT-4o や GPT-4v よりもかなり弱い。
論文 参考訳(メタデータ) (2023-12-22T17:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。