論文の概要: Scalable LLM-based Coding of Dialogue in Healthcare Simulation: Balancing Coding Performance, Processing Time, and Environmental Impact
- arxiv url: http://arxiv.org/abs/2604.23255v1
- Date: Sat, 25 Apr 2026 11:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.228956
- Title: Scalable LLM-based Coding of Dialogue in Healthcare Simulation: Balancing Coding Performance, Processing Time, and Environmental Impact
- Title(参考訳): 医療シミュレーションにおけるLLMに基づくスケーラブルな対話符号化:符号化性能のバランス、処理時間、環境影響
- Authors: Kiyoshige Garces, Gloria Milena Fernandez-Nieto, Linxuan Zhao, Sachini Samaraweera, Dragan Gasevic, Roberto Martinez-Maldonado, Vanessa Echeverria,
- Abstract要約: 対話内容の分析は、チーム学習理論の進歩と、コンピュータが支援する協調学習環境の設計を通知する上で重要である。
本稿では, チームベース医療シミュレーションにおけるコーディング精度, 処理時間, 環境影響のバランスをとるために, 迅速な設計と戦略を最適化する方法について検討する。
- 参考スコア(独自算出の注目度): 7.255541676420198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research shows that dialogue, the interactive process through which participants articulate their thinking, plays a central role in constructing shared understanding, coordinating action, and shaping learning outcomes in teams. Analysing dialogue content has been central to advancing team learning theory and informing the design of computer-supported collaborative learning environments, yet this progress has depended on labour-intensive qualitative coding. LLMs offer new possibilities for automating and enhancing the dialogue layer within emerging multimodal learning analytics approaches, with recent studies showing that they can approximate human coding through few-shot prompting. However, prior work has focused on replicating human coding accuracy for research purposes, rather than addressing a more educationally consequential question: how can we design prompts that allow an LLM to label team dialogue accurately and fast enough to be useful in real settings, such as in-person healthcare simulations, where results must be returned quickly and computational cost and sustainability also matter? This paper investigates how prompt design and batching strategies can be optimised to balance coding accuracy, processing time, and environmental impact in team-based healthcare simulation debriefing. Using a dataset of 11,647 utterances coded across 6 dialogue constructs, we compared 4 prompt designs across varying batch sizes, evaluating coding performance, processing time, and energy consumption, as well as the trade-offs between these metrics. Results indicate that increasing batch size improves speed and reduces energy use, but negatively impacts coding performance. Beyond demonstrating the feasibility of LLM-based qualitative analysis, this study offers practical guidance for scaling dialogue analytics in contexts where timeliness, privacy, and sustainability are critical.
- Abstract(参考訳): 研究は、参加者が自分の思考を明確にする対話的なプロセスである対話が、共通の理解の構築、行動の調整、チームでの学習成果の形成において中心的な役割を果たすことを示している。
対話内容の分析は、チーム学習理論の進歩と、コンピュータ支援による協調学習環境の設計の報知の中心であるが、この進歩は労働集約的な定性的なコーディングに依存している。
LLMは、新たなマルチモーダル学習分析アプローチにおいて、対話層を自動化し、拡張する新たな可能性を提供する。
しかし、以前の研究は、研究目的のために人間のコーディング精度を複製することに重点を置いており、より教育的に簡潔な問題に対処するよりも、どのようにしてLLMがチームダイアログを正確かつ迅速にラベル付けできるプロンプトを設計できるのか?
本稿では, チームベース医療シミュレーションにおけるコーディング精度, 処理時間, 環境影響のバランスをとるために, 迅速な設計・バッチ化戦略を最適化する方法について検討する。
6つの対話構造で符号化された11,647の発話のデータセットを用いて、4つのプロンプトをバッチサイズで比較し、コーディング性能、処理時間、エネルギー消費を評価し、これらのメトリクス間のトレードオフを評価した。
その結果,バッチサイズの増加は速度を向上し,エネルギー消費を減少させるが,符号化性能に悪影響を及ぼすことが示された。
LLMに基づく質的分析の実現可能性を示すだけでなく、この研究は、タイムライン、プライバシー、持続可能性が重要なコンテキストにおいて対話分析をスケールするための実践的なガイダンスを提供する。
関連論文リスト
- Decoding Human-LLM Collaboration in Coding: An Empirical Study of Multi-Turn Conversations in the Wild [15.241064679369407]
LMSYS-Chat-1MとWildChatのデータセットを用いて,人間とLLMのコーディングコラボレーションに関する実証分析を行った。
コード品質の最適化は線形パターン、デザイン駆動のタスクはツリー構造に傾き、クエリはスターパターンを好む。
この研究は、人間とLLMのシナジーの理解を広げ、より効果的なAI支援開発を支援すると信じている。
論文 参考訳(メタデータ) (2025-12-11T10:14:42Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs [8.918587474371321]
大規模音声言語モデル(LALM)は急速に進歩しているが、評価は依然として難しい。
LALMの効率的かつ包括的な評価フレームワークであるAU-Harnessを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
論文 参考訳(メタデータ) (2025-09-09T15:30:40Z) - An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。
CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。
本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。
Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文 参考訳(メタデータ) (2025-07-07T15:34:05Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - LLM-Assisted Automated Deductive Coding of Dialogue Data: Leveraging Dialogue-Specific Characteristics to Enhance Contextual Understanding [0.0]
本研究では,LLMを用いた対話データの自動符号化手法を開発した。
対話特有の特徴に基づいて発話のコードを予測する。
また,行動予測の精度は事象予測の精度よりも一貫して高かった。
論文 参考訳(メタデータ) (2025-04-28T12:31:38Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。