論文の概要: Prompt-and-Check: Using Large Language Models to Evaluate Communication Protocol Compliance in Simulation-Based Training
- arxiv url: http://arxiv.org/abs/2508.08652v1
- Date: Tue, 12 Aug 2025 05:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.313082
- Title: Prompt-and-Check: Using Large Language Models to Evaluate Communication Protocol Compliance in Simulation-Based Training
- Title(参考訳): Prompt-and-Check:シミュレーションベーストレーニングにおける大規模言語モデルを用いた通信プロトコルコンプライアンスの評価
- Authors: Vishakha Lall, Yisi Liu,
- Abstract要約: 本稿では,オープンソースの大規模言語モデル(LLM)を用いたプロンプトベース推論を用いた軽量でデプロイ可能なアプローチについて検討する。
Prompt-and-Checkは,プロトコル内の各チェックリスト項目が満たされているかどうかを評価するために,コンテキストリッチなプロンプトを使用する手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate evaluation of procedural communication compliance is essential in simulation-based training, particularly in safety-critical domains where adherence to compliance checklists reflects operational competence. This paper explores a lightweight, deployable approach using prompt-based inference with open-source large language models (LLMs) that can run efficiently on consumer-grade GPUs. We present Prompt-and-Check, a method that uses context-rich prompts to evaluate whether each checklist item in a protocol has been fulfilled, solely based on transcribed verbal exchanges. We perform a case study in the maritime domain with participants performing an identical simulation task, and experiment with models such as LLama 2 7B, LLaMA 3 8B and Mistral 7B, running locally on an RTX 4070 GPU. For each checklist item, a prompt incorporating relevant transcript excerpts is fed into the model, which outputs a compliance judgment. We assess model outputs against expert-annotated ground truth using classification accuracy and agreement scores. Our findings demonstrate that prompting enables effective context-aware reasoning without task-specific training. This study highlights the practical utility of LLMs in augmenting debriefing, performance feedback, and automated assessment in training environments.
- Abstract(参考訳): プロシージャ通信コンプライアンスの正確な評価は、シミュレーションベースのトレーニング、特にコンプライアンスチェックリストへの準拠が運用能力の反映となる安全クリティカルな領域において不可欠である。
本稿では,コンシューマグレードのGPU上で効率的に動作可能なオープンソースの大規模言語モデル(LLM)を用いた,プロンプトベースの推論を用いた軽量でデプロイ可能なアプローチについて検討する。
Prompt-and-Checkは、文脈に富んだプロンプトを用いて、プロトコル内の各チェックリスト項目が満たされたかどうかを、単に書き起こされた動詞交換に基づいて評価する手法である。
また, RTX 4070 GPU上でローカルに動作するLLama 2 7B, LLaMA 3 8B, Mistral 7Bなどのモデルを用いた実験を行った。
チェックリスト項目毎に、関連するトランスクリプトの抜粋を組み込んだプロンプトがモデルに入力され、コンプライアンス判断が出力される。
我々は、分類精度と合意スコアを用いて、専門家が注釈付けした真実に対するモデル出力を評価する。
本研究は,タスク固有の訓練を使わずに,効果的な文脈認識推論を可能にすることを示す。
本研究は, 訓練環境における省力化, 性能フィードバック, 自動評価におけるLCMの実用性を強調した。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability [5.393872292662451]
Meeseeksは,反復的なフィードバックフレームワークを通じて,現実的な人間-LLMインタラクションをシミュレートする。
MeeseeksはマルチターンシナリオにおけるLLMの命令フォロー機能に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Contextualizing Search Queries In-Context Learning for Conversational Rewriting with LLMs [0.0]
本稿では,数発の対話型クエリ書き換えのための新しいアプローチであるPrompt-Guided In-Context Learningを紹介する。
提案手法では,タスク記述,入出力形式仕様,図示的な例を取り入れ,慎重に設計したプロンプトを用いている。
ベンチマークデータセットであるTRECとTaskmaster-1の実験は、我々のアプローチが強いベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-20T20:02:42Z) - Generative Prompt Internalization [48.91617280112579]
本稿では,共同学習手法を用いる軽量な手法であるGenerative Prompt Internalization (GenPI)を提案する。
GenPIは、プロンプト入力でモデルの振る舞いを複製するだけでなく、プロンプトの内容も生成する。
エージェントベースのアプリケーションシナリオにおいて,このアプローチが複雑なプロンプトを効果的に内部化することを示す。
論文 参考訳(メタデータ) (2024-11-24T17:32:20Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。