Fugu-MT 論文翻訳(概要): Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

論文の概要: Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

arxiv url: http://arxiv.org/abs/2604.19598v2
Date: Thu, 23 Apr 2026 01:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.029725
Title: Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models
Title（参考訳）: AI生成したエクササイズ記述のモデル間一貫性:3つの大規模言語モデル間での繰り返し生成研究
Authors: Kihyuk Lee,
Abstract要約: GPT-4.1、Gemini 2.5 Flash、Claude Sonnet 4.6は、20回の臨床シナリオで処方薬を作成した。 GPT-4.1 (0.955), Gemini 2.5 Flash (0.950), Claude Sonnet 4.6 (0.903) GPT-4.1は完全にユニークな出力(100%)を安定なセマンティックコンテンツで生成し、Gemini 2.5 Flashは顕著な出力繰り返し(27.5%のユニークな出力)を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study compared repeated generation consistency of exercise prescription outputs across three large language models (LLMs), specifically GPT-4.1, Claude Sonnet 4.6, and Gemini 2.5 Flash, under temperature=0 conditions. Each model generated prescriptions for six clinical scenarios 20 times, yielding 360 total outputs analyzed across four dimensions: semantic similarity, output reproducibility, FITT classification, and safety expression. Mean semantic similarity was highest for GPT-4.1 (0.955), followed by Gemini 2.5 Flash (0.950) and Claude Sonnet 4.6 (0.903), with significant inter-model differences confirmed (H = 458.41, p < .001). Critically, these scores reflected fundamentally different generative behaviors: GPT-4.1 produced entirely unique outputs (100%) with stable semantic content, while Gemini 2.5 Flash showed pronounced output repetition (27.5% unique outputs), indicating that its high similarity score derived from text duplication rather than consistent reasoning. Identical decoding settings thus yielded fundamentally different consistency profiles, a distinction that single-output evaluations cannot capture. Safety expression reached ceiling levels across all models, confirming its limited utility as a differentiating metric. These results indicate that model selection constitutes a clinical rather than merely technical decision, and that output behavior under repeated generation conditions should be treated as a core criterion for reliable deployment of LLM-based exercise prescription systems.
Abstract（参考訳）: 本研究は,GPT-4.1,Claude Sonnet 4.6,Gemini 2.5 Flashの3大言語モデル(LLM)の温度=0条件下でのエクササイズ処方の繰り返し生成一貫性を比較した。各モデルは6つの臨床シナリオの処方薬を20回生成し、意味的類似性、出力再現性、FITT分類、安全性表現の4次元で分析された360個の総出力を得た。意味的類似性は GPT-4.1 (0.955) が最も高く、続いて Gemini 2.5 Flash (0.950) と Claude Sonnet 4.6 (0.903) が続いた(H = 458.41, p < .001)。 GPT-4.1は完全にユニークな出力(100%)を安定なセマンティックコンテンツで生成し、Gemini 2.5 Flashは顕著な出力繰り返し(27.5%のユニークな出力)を示した。これにより、同一の復号化設定により、基本的に異なる一貫性プロファイルが得られ、単一出力評価が達成できないという区別が得られた。安全表現はすべてのモデルで天井レベルに達し、差別化指標として限られた実用性が確認された。これらの結果から, モデル選択は単なる技術的判断ではなく臨床的判断であり, 繰り返し発生条件下での出力挙動は, LLMベースのエクササイズ処方システムの信頼性確保のための中核的基準として扱われることが示唆された。

関連論文リスト

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model [0.0]
大きな言語モデル(LLM)は、パーソナライズされたエクササイズ処方薬を生成するためのツールとして研究されている。本研究は, LLM生成運動処方薬のモデル内整合性について, 繰り返し生成設計を用いて評価した。
論文参考訳（メタデータ） (2026-04-13T10:50:44Z)
Dynamic Context Evolution for Scalable Synthetic Data Generation [0.0]
大規模言語モデルは、多くのバッチで独立して繰り返し出力を生成する。 3つのメカニズムからなる動的コンテキスト進化(DCE)を紹介する。 DCEは、メモリ状態と回転多様性戦略を使用して、各バッチの生成プロンプトを再構築する。
論文参考訳（メタデータ） (2026-04-08T14:38:11Z)
OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文参考訳（メタデータ） (2026-03-23T19:03:53Z)
Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文参考訳（メタデータ） (2025-04-10T18:00:27Z)
Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文参考訳（メタデータ） (2025-03-20T19:31:04Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Automatically measuring speech fluency in people with aphasia: first achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文参考訳（メタデータ） (2023-08-09T07:51:40Z)
Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文参考訳（メタデータ） (2023-08-03T12:47:17Z)
Multilabel 12-Lead Electrocardiogram Classification Using Gradient Boosting Tree Ensemble [64.29529357862955]
我々は,心電図の診断を分類するために,形態や信号処理機能に適合した勾配強化木のアンサンブルを用いたアルゴリズムを構築した。各リードについて、心拍変動、PQRSTテンプレート形状、全信号波形から特徴を導出する。各クラスに属するECGインスタンスの確率を予測するため、全12項目の特徴と合わせて、勾配を増す決定ツリーの集合に適合する。
論文参考訳（メタデータ） (2020-10-21T18:11:36Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。