Fugu-MT 論文翻訳(概要): Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models

論文の概要: Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models

arxiv url: http://arxiv.org/abs/2402.13887v1
Date: Wed, 21 Feb 2024 15:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 14:40:32.328298
Title: Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models
Title（参考訳）: 確率を超えて: 大規模言語モデルを評価する際の過ちを解消する
Authors: Chenyang Lyu, Minghao Wu, Alham Fikri Aji
Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な機能を示している。本研究の目的は,複数選択質問(MCQ)におけるLCMを用いた確率に基づく評価手法の有効性を検討することである。実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。
参考スコア（独自算出の注目度）: 27.47466284525851
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various applications, fundamentally reshaping the landscape of natural language processing (NLP) research. However, recent evaluation frameworks often rely on the output probabilities of LLMs for predictions, primarily due to computational constraints, diverging from real-world LLM usage scenarios. While widely employed, the efficacy of these probability-based evaluation strategies remains an open research question. This study aims to scrutinize the validity of such probability-based evaluation methods within the context of using LLMs for Multiple Choice Questions (MCQs), highlighting their inherent limitations. Our empirical investigation reveals that the prevalent probability-based evaluation method inadequately aligns with generation-based prediction. Furthermore, current evaluation frameworks typically assess LLMs through predictive tasks based on output probabilities rather than directly generating responses, owing to computational limitations. We illustrate that these probability-based approaches do not effectively correspond with generative predictions. The outcomes of our study can enhance the understanding of LLM evaluation methodologies and provide insights for future research in this domain.
Abstract（参考訳）: 大規模言語モデル(llm)は、自然言語処理(nlp)研究の展望を根本的に変えて、さまざまなアプリケーションで顕著な能力を示している。しかし、最近の評価フレームワークは、主に計算上の制約のため、実世界のllm使用シナリオから逸脱し、予測のためにllmの出力確率に依存することが多い。広く採用されているが、これらの確率に基づく評価戦略の有効性は未解決の課題である。本研究の目的は,LLMs for Multiple Choice Questions (MCQs) の文脈における確率に基づく評価手法の有効性を検討することである。本研究は, 確率ベース評価手法が世代別予測と不一致であることを明らかにする。さらに、現在の評価フレームワークでは、計算量制限のため、直接応答を生成するのではなく、出力確率に基づく予測タスクを通じてllmを評価するのが一般的である。これらの確率に基づくアプローチは生成予測と効果的に一致しないことを示す。本研究の結果は,LLM評価手法の理解を深め,今後の研究への洞察を与えることができる。

関連論文リスト

Bayesian Evaluation of Large Language Model Behavior [11.847752638476257]
大規模言語モデルに基づくテキスト生成システムがどのように振る舞うかを評価することがますます重要である。既存の評価手法は、しばしば統計的不確実性定量化を無視する。本稿では,2値評価指標における不確かさの定量化にベイズ的手法を適用した2つのケーススタディを提案する。
論文参考訳（メタデータ） (2025-11-04T19:51:46Z)
Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文参考訳（メタデータ） (2025-09-12T22:58:05Z)
Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。 ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。 CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。 IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-08-13T16:02:55Z)
A comparative analysis of machine learning algorithms for predicting probabilities of default [1.534667887016089]
将来的な融資のデフォルト(PD)の確率を予測することは、金融機関にとって重要な目標である。近年,機械学習(ML)アルゴリズムは様々な予測タスクにおいて顕著な成功を収めている。本稿では,5つの予測モデルの性能を比較することで,MLアルゴリズムがこの分野にもたらす機会を強調する。
論文参考訳（メタデータ） (2025-06-24T16:56:07Z)
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。 GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文参考訳（メタデータ） (2025-04-30T04:24:50Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-21T08:56:35Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文参考訳（メタデータ） (2024-05-21T15:13:12Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。実験により,提案したベンチマークの音質と評価方法が検証された。
論文参考訳（メタデータ） (2023-10-20T13:14:38Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。