論文の概要: When LLMs Can't Help: Real-World Evaluation of LLMs in Nutrition
- arxiv url: http://arxiv.org/abs/2511.20652v1
- Date: Tue, 07 Oct 2025 14:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.302454
- Title: When LLMs Can't Help: Real-World Evaluation of LLMs in Nutrition
- Title(参考訳): LLMが役に立たないとき: 栄養学におけるLLMの実世界評価
- Authors: Karen Jia-Hui Li, Simone Balloccu, Ondrej Dusek, Ehud Reiter,
- Abstract要約: 栄養学における大規模言語モデル (LLM) を含む最初のランダム化制御試験を行った。
私たちの機能は、現実世界のデプロイメントにおいて一貫したメリットをもたらしていないことが分かりました。
これらの結果は、本質的な評価と実世界への影響の間に重要なギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 13.342465617558224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing trust in large language models (LLMs), especially in the form of chatbots, is often undermined by the lack of their extrinsic evaluation. This holds particularly true in nutrition, where randomised controlled trials (RCTs) are the gold standard, and experts demand them for evidence-based deployment. LLMs have shown promising results in this field, but these are limited to intrinsic setups. We address this gap by running the first RCT involving LLMs for nutrition. We augment a rule-based chatbot with two LLM-based features: (1) message rephrasing for conversational variety and engagement, and (2) nutritional counselling through a fine-tuned model. In our seven-week RCT (n=81), we compare chatbot variants with and without LLM integration. We measure effects on dietary outcome, emotional well-being, and engagement. Despite our LLM-based features performing well in intrinsic evaluation, we find that they did not yield consistent benefits in real-world deployment. These results highlight critical gaps between intrinsic evaluations and real-world impact, emphasising the need for interdisciplinary, human-centred approaches.\footnote{We provide all of our code and results at: \\ \href{https://github.com/saeshyra/diet-chatbot-trial}{https://github.com/saeshyra/diet-chatbot-trial}}
- Abstract(参考訳): 大規模言語モデル(LLM)に対する信頼感の高まり、特にチャットボットの形では、その外在的評価の欠如により、しばしば損なわれる。
これは栄養学において特に当てはまり、ランダム化制御試験(RCT)が金の標準であり、専門家は証拠に基づく展開を要求する。
LLMはこの分野で有望な結果を示しているが、それらは本質的な設定に限られている。
栄養のためにLLMを含む最初のRTTを走らせることで、このギャップに対処する。
ルールベースのチャットボットを,(1)会話の多様性とエンゲージメントのためのメッセージ言い換え,(2)微調整モデルによる栄養カウンセリングという,LLMに基づく2つの特徴で拡張する。
7週間のRTT(n=81)では、チャットボットの変種とLLM統合の有無を比較した。
食事結果,感情的幸福感,エンゲージメントに影響を及ぼす効果を測定した。
LLMベースの機能は本質的な評価では良好に機能するが,実世界の展開において一貫したメリットは得られなかった。
これらの結果は、本質的な評価と実世界のインパクトの間に重要なギャップを浮き彫りにして、学際的で人間中心のアプローチの必要性を強調している。
\\ \href{https://github.com/saeshyra/diet-chatbot-trial}{https://github.com/saeshyra/diet-chatbot-trial}}
関連論文リスト
- Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results [10.858989372235657]
本研究では,複数のLCM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する応答を評価する。
基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
論文 参考訳(メタデータ) (2025-11-04T04:20:33Z) - A Framework for Auditing Chatbots for Dialect-Based Quality-of-Service Harms [0.6144680854063939]
方言バイアスに対する大規模言語モデル(LLM)に基づくチャットボットの監査のためのフレームワークを提案する。
システムが異なる人々に対して同じように機能しない場合に発生する、サービス品質の悪影響の程度を測定します。
私たちのフレームワークには,実際に有用な3つの重要な特徴があります。
論文 参考訳(メタデータ) (2025-06-04T19:58:51Z) - Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。
本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文 参考訳(メタデータ) (2025-06-01T02:01:52Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。