論文の概要: A Comparative Study of Decoding Strategies in Medical Text Generation
- arxiv url: http://arxiv.org/abs/2508.13580v1
- Date: Tue, 19 Aug 2025 07:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.830385
- Title: A Comparative Study of Decoding Strategies in Medical Text Generation
- Title(参考訳): 医用テキスト生成における復号法の比較検討
- Authors: Oriana Presacan, Alireza Nik, Vajira Thambawita, Bogdan Ionescu, Michael Riegler,
- Abstract要約: 正確性が不可欠である医療において、デコード戦略の影響はいまだに過小評価されている。
医療専門および汎用大規模言語モデルを用いた11個のデコード戦略の評価を行った。
以上の結果から,決定論的戦略は一般的にそれよりも優れており,etaおよびトップkサンプリングは最悪の結果となった。
- 参考スコア(独自算出の注目度): 1.664676052484102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) rely on various decoding strategies to generate text, and these choices can significantly affect output quality. In healthcare, where accuracy is critical, the impact of decoding strategies remains underexplored. We investigate this effect in five open-ended medical tasks, including translation, summarization, question answering, dialogue, and image captioning, evaluating 11 decoding strategies with medically specialized and general-purpose LLMs of different sizes. Our results show that deterministic strategies generally outperform stochastic ones: beam search achieves the highest scores, while {\eta} and top-k sampling perform worst. Slower decoding methods tend to yield better quality. Larger models achieve higher scores overall but have longer inference times and are no more robust to decoding. Surprisingly, while medical LLMs outperform general ones in two of the five tasks, statistical analysis shows no overall performance advantage and reveals greater sensitivity to decoding choice. We further compare multiple evaluation metrics and find that correlations vary by task, with MAUVE showing weak agreement with BERTScore and ROUGE, as well as greater sensitivity to the decoding strategy. These results highlight the need for careful selection of decoding methods in medical applications, as their influence can sometimes exceed that of model choice.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキストを生成するための様々なデコード戦略に依存しており、これらの選択は出力品質に大きな影響を及ぼす可能性がある。
正確性が不可欠である医療において、デコード戦略の影響はいまだに過小評価されている。
本研究は, 翻訳, 要約, 質問応答, 対話, 画像キャプションの5つのオープンエンド医療課題において, 医療専門的かつ汎用的なLLMを用いた11個のデコード戦略の評価を行った。
以上の結果から,ビームサーチは最も高いスコアを達成し,トップkサンプリングは最悪である。
より低い復号法はより良い品質をもたらす傾向がある。
より大きなモデルは全体としてより高いスコアを得るが、推論時間が長く、復号化には堅牢ではない。
驚くべきことに、医療用LLMは5つのタスクのうち2つのタスクで一般的なものよりも優れていますが、統計解析では全体的な性能上の優位性は示さず、復号選択に対する感度が向上しています。
さらに、複数の評価指標を比較し、MAUVEはBERTScoreとROUGEとの弱い一致を示すとともに、デコード戦略に対する感度も向上する。
これらの結果は、医療応用における復号法の選択を慎重に行う必要性を強調しており、その影響がモデル選択よりも大きい場合もある。
関連論文リスト
- Optimizing fMRI Data Acquisition for Decoding Natural Speech with Limited Participants [38.5686683941366]
限られた参加者から得られたfMRIデータから知覚された自然音声を復号するための最適戦略を検討する。
まず、fMRI活動からテキスト表現を予測するために、ディープニューラルネットワークのトレーニングの有効性を実証する。
マルチオブジェクトトレーニングは、シングルオブジェクトアプローチと比較してデコード精度を向上しない。
論文 参考訳(メタデータ) (2025-05-27T15:06:04Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。