Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for Gait Classification Using Text-Encoded Kinematic Waveforms

論文の概要: Evaluating Large Language Models for Gait Classification Using Text-Encoded Kinematic Waveforms

arxiv url: http://arxiv.org/abs/2603.13317v1
Date: Wed, 04 Mar 2026 10:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.298236
Title: Evaluating Large Language Models for Gait Classification Using Text-Encoded Kinematic Waveforms
Title（参考訳）: テキスト符号化キネマティック波形を用いた歩行分類のための大規模言語モデルの評価
Authors: Carlo Dindorf, Jonas Dully, Rebecca Keilhauer, Michael Lorenz, Michael Fröhlich,
Abstract要約: LLM(Large Language Models)は、構造化キネマティックデータに適用した場合、説明機能と信頼性に配慮した出力を提供する。本研究は,テキスト数値列で表される連続歩行運動学を汎用LLMで分類できるかどうかを検証した。
参考スコア（独自算出の注目度）: 1.1635287453977645
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Background: Machine learning (ML) enhances gait analysis but often lacks the level of interpretability desired for clinical adoption. Large Language Models (LLMs) may offer explanatory capabilities and confidence-aware outputs when applied to structured kinematic data. This study therefore evaluated whether general-purpose LLMs can classify continuous gait kinematics when represented as textual numeric sequences and how their performance compares to conventional ML approaches. Methods: Lower-body kinematics were recorded from 20 participants performing seven gait patterns. A supervised KNN classifier and a class-independent One-Class SVM (OCSVM) were compared against zero-shot LLMs (GPT-5, GPT-5-mini, GPT-4.1, and o4-mini). Models were evaluated using Leave-One-Subject-Out (LOSO) cross-validation. LLMs were tested both with and without explicit reference gait statistics. Results: The supervised KNN achieved the highest performance (multiclass Matthews Correlation Coefficient, MCC = 0.88). The best-performing LLM (GPT-5) with reference grounding achieved a multiclass MCC of 0.70 and a binary MCC of 0.68, outperforming the class-independent OCSVM (binary MCC = 0.60). Performance of the LLM was highly dependent on explicit reference information and self-rated confidence; when restricted to high-confidence predictions, multiclass MCC increased to 0.83 on the filtered subset. Notably, the computationally efficient o4-mini model performed comparably to larger models. Conclusion: When continuous kinematic waveforms were encoded as textual numeric tokens, general-purpose LLMs, even with reference grounding, did not match supervised multiclass classifiers for precise gait classification and are better regarded as exploratory systems requiring cautious, human-guided interpretation rather than diagnostic use.
Abstract（参考訳）: 背景: 機械学習(ML)は歩行分析を強化するが、臨床応用に必要な解釈可能性のレベルを欠いていることが多い。 LLM(Large Language Models)は、構造化キネマティックデータに適用した場合、説明機能と信頼性に配慮した出力を提供する。そこで本研究では,テキスト数値列として表現された連続歩行運動学を汎用LLMで分類できるかどうか,従来のML手法との比較を行った。方法:7つの歩行パターンを施行した20名の被験者から下肢運動学を報告した。教師付きKNN分類器とクラス非依存のOne-Class SVM(OCSVM)をゼロショットLLM(GPT-5, GPT-5-mini, GPT-4.1, o4-mini)と比較した。モデルはLOSO(Leave-One-Subject-Out)クロスバリデーションを用いて評価した。 LLMは、明示的な基準歩容統計と非明示的な基準歩容統計の両方で試験された。結果: 教師付きKNNは最高性能(マルチクラスマシューズ相関係数, MCC = 0.88)を達成した。基準接地による最高性能のLCM(GPT-5)は、マルチクラスMCCが0.70、バイナリMCCが0.68となり、クラス非依存のOCCVM(バイナリMCC = 0.60)を上回った。 LLMの性能は明示的な基準情報と自己評価信頼に大きく依存しており、高信頼の予測に制限された場合、フィルタされたサブセット上でのマルチクラスMCCは0.83まで増加した。特に、計算効率の良いo4-miniモデルでは、より大きなモデルと互換性がある。結論: 連続キネマティック波形がテキスト数値トークンとして符号化された場合, 一般的なLLMは, 基準基底であっても, 正確な歩行分類のための教師付きマルチクラス分類器と一致しなかった。

関連論文リスト

Curate-Train-Refine: A Closed-Loop Agentic Framework for Zero Shot Classification [2.1937565888932653]
大規模言語モデル(LLM)と高容量エンコーダは、ゼロと少数ショットの分類が進んでいるが、その推論コストと遅延は実際のデプロイを制限している。 LLMから動的に生成した教師による軽量テキスト分類器の訓練を提案する。提案手法は, LLMがトレーニングデータをキュレートし, モデルの成功と失敗を分析し, 対象とするサンプルを合成し, 観測誤差に対処する反復的エージェントループを用いる。
論文参考訳（メタデータ） (2026-01-23T08:04:09Z)
Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models [0.0]
大規模言語モデル(LLM)は平均年齢のパフォーマンスは高いが、インスタンスレベルでは信頼性が低い。本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。このシステムは、自然言語の応答をセマンティックな埋め込み、ペアの類似性とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の事前情報を用いて構造化された特徴にマッピングする。
論文参考訳（メタデータ） (2026-01-12T06:27:06Z)
Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches [8.864020712680976]
586例から6,393例の注釈付きコーパスを報告した。我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。 GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
論文参考訳（メタデータ） (2025-11-14T20:55:44Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.7472996057387354]
本研究では,古典的特徴ベース機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを比較し,新型コロナウイルス死亡率の予測を行った。 XGBoost と RF は CML において優れた性能を示し,F1 スコアは0.87 と 0.83 であった。 GPT-4はF1スコアが0.43、微調整のMistral-7bは1%から79%に大幅に改善され、外部検証では安定したF1スコアが0.74となった。
論文参考訳（メタデータ） (2024-09-02T14:51:12Z)
Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文参考訳（メタデータ） (2024-08-02T16:15:25Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。