論文の概要: Evaluating LLM Understanding via Structured Tabular Decision Simulations
- arxiv url: http://arxiv.org/abs/2511.10667v1
- Date: Fri, 07 Nov 2025 09:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.237664
- Title: Evaluating LLM Understanding via Structured Tabular Decision Simulations
- Title(参考訳): 構造的語彙決定シミュレーションによるLLM理解の評価
- Authors: Sichao Li, Xinyue Xu, Xiaomeng Li,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば印象的な予測精度を達成するが、正確性だけでは真に理解できない。
本稿では,専門家的な意思決定設定のスイートであるStructured Tabular Decision Simulations (STaDS)を紹介する。
我々は15の異なる意思決定設定で9つのフロンティアLSMを分析した。
- 参考スコア(独自算出の注目度): 19.626373589153108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often achieve impressive predictive accuracy, yet correctness alone does not imply genuine understanding. True LLM understanding, analogous to human expertise, requires making consistent, well-founded decisions across multiple instances and diverse domains, relying on relevant and domain-grounded decision factors. We introduce Structured Tabular Decision Simulations (STaDS), a suite of expert-like decision settings that evaluate LLMs as if they were professionals undertaking structured decision ``exams''. In this context, understanding is defined as the ability to identify and rely on the correct decision factors, features that determine outcomes within a domain. STaDS jointly assesses understanding through: (i) question and instruction comprehension, (ii) knowledge-based prediction, and (iii) reliance on relevant decision factors. By analyzing 9 frontier LLMs across 15 diverse decision settings, we find that (a) most models struggle to achieve consistently strong accuracy across diverse domains; (b) models can be accurate yet globally unfaithful, and there are frequent mismatches between stated rationales and factors driving predictions. Our findings highlight the need for global-level understanding evaluation protocols and advocate for novel frameworks that go beyond accuracy to enhance LLMs' understanding ability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば印象的な予測精度を達成するが、正確性だけでは真に理解できない。
人間の専門知識に類似した真のLLM理解は、複数のインスタンスやさまざまなドメインにまたがって一貫性のある、しっかりとした決定をしなければなりません。
本研究では,LLMを,構造化された意思決定を行う専門家であるかのように評価する,専門家的な意思決定設定スイートであるStructured Tabular Decision Simulations (STaDS)を紹介する。
この文脈では、理解は、ドメイン内の結果を決定する機能である正しい決定要因を識別し、依存する能力として定義される。
STaDSは、次のような理解を共同で評価する。
一 質問及び指導要領
(二)知識に基づく予測、及び
三 関連する決定要因に依存すること。
15の異なる意思決定条件で9つのフロンティアLSMを解析することで、そのことが分かる。
(a)ほとんどのモデルは、様々な領域で一貫して強い精度を達成するのに苦労しています。
b) モデルは正確だが全世界的に不信であり, 有理数と予測を駆動する要因の間にはしばしばミスマッチがある。
本研究は,LLMの理解能力を高めるために,世界レベルの理解評価プロトコルの必要性を強調し,精度を超える新しいフレームワークを提唱するものである。
関連論文リスト
- DeFine: Decision-Making with Analogical Reasoning over Factor Profiles [35.9909472797192]
textscDeFineは複雑なシナリオから確率係数プロファイルを構築するモジュラーフレームワークである。
次に、これらのプロファイルと類似の推論を統合して、新しい状況における重要な決定をLCMに導く。
このアプローチは、不確実性の下での意思決定が不可欠であるコンサルティングや金融交渉といった分野において特に有用である。
論文 参考訳(メタデータ) (2024-10-02T17:29:34Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Determinants of LLM-assisted Decision-Making [0.0]
大規模言語モデル(LLM)は、人間の意思決定プロセスを強化するための多面的サポートを提供する。
本研究は,LCM支援による意思決定に影響を及ぼす決定因子の構造的概要と詳細な分析を提供する。
我々の発見は、人間とAIのコラボレーションにおける意思決定の質向上に不可欠であると見なすことができる。
論文 参考訳(メタデータ) (2024-02-27T10:24:50Z) - DeLLMa: Decision Making Under Uncertainty with Large Language Models [31.77731889916652]
DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。
DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2024-02-04T08:11:45Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。