Fugu-MT 論文翻訳(概要): Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition

論文の概要: Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition

arxiv url: http://arxiv.org/abs/2506.07436v1
Date: Mon, 09 Jun 2025 05:22:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.812218
Title: Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition
Title（参考訳）: 保護の推進:建設ハザード認識におけるマルチモーダルLLMの比較研究
Authors: Nishi Chaudhary, S M Jamil Uddin, Sathvik Sharath Chandra, Anto Ovid, Alex Albert,
Abstract要約: 本研究は,5つの最先端大言語モデル(LLM)の比較評価を行う。各モデルは、ゼロショット、少数ショット、チェーン・オブ・シント(CoT)という3つのプロンプト戦略の下でテストされた。その結果、CoTは性能に大きく影響し、CoTはモデル間で高い精度を連続的に生成することがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The recent emergence of multimodal large language models (LLMs) has introduced new opportunities for improving visual hazard recognition on construction sites. Unlike traditional computer vision models that rely on domain-specific training and extensive datasets, modern LLMs can interpret and describe complex visual scenes using simple natural language prompts. However, despite growing interest in their applications, there has been limited investigation into how different LLMs perform in safety-critical visual tasks within the construction domain. To address this gap, this study conducts a comparative evaluation of five state-of-the-art LLMs: Claude-3 Opus, GPT-4.5, GPT-4o, GPT-o3, and Gemini 2.0 Pro, to assess their ability to identify potential hazards from real-world construction images. Each model was tested under three prompting strategies: zero-shot, few-shot, and chain-of-thought (CoT). Zero-shot prompting involved minimal instruction, few-shot incorporated basic safety context and a hazard source mnemonic, and CoT provided step-by-step reasoning examples to scaffold model thinking. Quantitative analysis was performed using precision, recall, and F1-score metrics across all conditions. Results reveal that prompting strategy significantly influenced performance, with CoT prompting consistently producing higher accuracy across models. Additionally, LLM performance varied under different conditions, with GPT-4.5 and GPT-o3 outperforming others in most settings. The findings also demonstrate the critical role of prompt design in enhancing the accuracy and consistency of multimodal LLMs for construction safety applications. This study offers actionable insights into the integration of prompt engineering and LLMs for practical hazard recognition, contributing to the development of more reliable AI-assisted safety systems.
Abstract（参考訳）: 近年の多モーダル大規模言語モデル(LLM)の出現により,建設現場における視覚的ハザード認識を改善する新たな機会がもたらされた。ドメイン固有のトレーニングや広範なデータセットに依存する従来のコンピュータビジョンモデルとは異なり、現代のLLMは単純な自然言語プロンプトを使用して複雑な視覚シーンを解釈し記述することができる。しかし、それらの用途への関心が高まっているにもかかわらず、建設領域内の安全クリティカルな視覚的タスクにおいて、異なるLLMがどのように機能するかについて、限定的な調査がなされている。このギャップに対処するため,本研究では, クロード3オプス, GPT-4.5, GPT-4o, GPT-o3, Gemini 2.0 Proの5つの最先端LCMを比較して, 実際の建設画像から潜在的な危険を識別する能力を評価する。各モデルは、ゼロショット、少数ショット、チェーン・オブ・シント(CoT)という3つのプロンプト戦略の下でテストされた。ゼロショットプロンプトは最小限の命令、少数ショットは基本的な安全コンテキストとハザードソースの調和、CoTは足場モデル思考にステップバイステップの推論例を提供した。精度,リコール,F1スコアを用いて,全条件で定量分析を行った。その結果、CoTはモデル間で高い精度を連続的に生成し、プロンプト戦略がパフォーマンスに大きく影響したことが明らかとなった。さらに、LCMの性能は異なる条件で変化し、GPT-4.5とGPT-o3はほとんどの設定で他よりも優れていた。また, 建設安全用多モードLLMの精度と整合性を高める上で, 即時設計が重要な役割を担っていることも明らかにした。本研究は、より信頼性の高いAI支援安全システムの開発に寄与する、実用的なハザード認識のための、迅速なエンジニアリングとLLMの統合に関する実用的な洞察を提供する。

関連論文リスト

Automated Interpretation of Non-Destructive Evaluation Contour Maps Using Large Language Models for Bridge Condition Assessment [0.0]
橋の維持と安全は交通機関にとって不可欠である。非破壊的評価(NDE)技術は構造的整合性を評価する上で重要である。大規模言語モデル(LLM)の最近の進歩は、この分析を自動化し改善する新しい方法を提供する。
論文参考訳（メタデータ） (2025-07-18T17:39:03Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。 GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文参考訳（メタデータ） (2024-09-30T14:00:34Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。 Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文参考訳（メタデータ） (2024-05-04T22:00:28Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文参考訳（メタデータ） (2024-03-22T17:50:43Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Metacognitive Prompting Improves Understanding in Large Language Models [12.112914393948415]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。我々は10の自然言語理解(NLU)データセットにまたがる4つの先行するLarge Language Model(LLM)の実験を行った。 MPは、一般的なNLUタスクとドメイン固有のNLUタスクの両方において、既存のプロンプトメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2023-08-10T05:10:17Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。