論文の概要: How Model Size, Temperature, and Prompt Style Affect LLM-Human Assessment Score Alignment
- arxiv url: http://arxiv.org/abs/2509.19329v1
- Date: Sun, 14 Sep 2025 02:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.424025
- Title: How Model Size, Temperature, and Prompt Style Affect LLM-Human Assessment Score Alignment
- Title(参考訳): モデルサイズ, 温度, プロンプトスタイルがLLM-Humanアライメントに及ぼす影響
- Authors: Julie Jung, Max Lu, Sina Chole Benker, Dogus Darici,
- Abstract要約: モデルのサイズ, 温度, プロンプトスタイルが, 臨床推論スキルの評価において, モデル間の大言語モデル(LLM)のアライメントに与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examined how model size, temperature, and prompt style affect Large Language Models' (LLMs) alignment within itself, between models, and with human in assessing clinical reasoning skills. Model size emerged as a key factor in LLM-human score alignment. Study highlights the importance of checking alignments across multiple levels.
- Abstract(参考訳): モデルのサイズ, 温度, プロンプトスタイルが, 臨床推論スキルの評価において, モデル間の大言語モデル(LLM)のアライメントに与える影響について検討した。
LLM-ヒトスコアアライメントのキーファクターとしてモデルサイズが現れた。
研究は、複数のレベルのアライメントをチェックすることの重要性を強調している。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Understanding Layer Significance in LLM Alignment [23.582520695083588]
大規模言語モデル内のどの層がアライメントプロセスに最も重要かを特定することを提案する。
実験の結果、アライメントデータセットにかなりの違いがあるにもかかわらず、モデルの重要層が90%近く重複していることが判明した。
また, 最重要層を選択的に調整することで, 性能損失を最小限に抑え, 微調整効率を著しく向上させることができた。
論文 参考訳(メタデータ) (2024-10-23T13:47:05Z) - Mental Disorders Detection in the Era of Large Language Models [4.653399559827737]
本稿では、抑うつや不安を検知するタスクにおける機械学習手法、エンコーダベースモデル、および大規模言語モデル(LLM)の有効性を比較した。
我々は、言語的特徴に基づくAutoMLモデル、BERTのようなエンコーダベースのトランスフォーマーのバリエーション、そして病理分類モデルとして最先端のLCMを試験した。
論文 参考訳(メタデータ) (2024-10-09T17:51:55Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - From Text to Source: Results in Detecting Large Language Model-Generated Content [17.306542392779445]
大きな言語モデル(LLM)は、人間に似たテキストを生成する能力によって祝われる。
本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練を行なわずに目標LLMからテキストを検出することができるかどうかを評価することで,Cross-Model Detectionについて検討する。
この研究では、量化と透かし検出に加えて、ソースモデル識別、モデルファミリー、モデルサイズ分類を含むモデル属性についても検討している。
論文 参考訳(メタデータ) (2023-09-23T09:51:37Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。