論文の概要: TruthTensor: Evaluating LLMs Human Imitation through Prediction Market Drift and Holistic Reasoning
- arxiv url: http://arxiv.org/abs/2601.13545v1
- Date: Tue, 20 Jan 2026 03:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.131722
- Title: TruthTensor: Evaluating LLMs Human Imitation through Prediction Market Drift and Holistic Reasoning
- Title(参考訳): TruthTensor:予測市場ドリフトと全体論的推論によるLLMの人間模倣の評価
- Authors: Shirin Shahabi, Spencer Graham, Haruna Isah,
- Abstract要約: 本稿では,大規模言語モデルを測定する新しい再現可能な評価パラダイムであるTrathTensorを紹介する。
我々のフレームワークは前向きで汚染のないタスクに基づいており、実際の予測市場に評価を固定しています。
TruthTensorは、同様の予測精度のモデルがキャリブレーション、ドリフト、リスク感度で著しく変化することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating language models and AI agents remains fundamentally challenging because static benchmarks fail to capture real-world uncertainty, distribution shift, and the gap between isolated task accuracy and human-aligned decision-making under evolving conditions. This paper introduces TruthTensor, a novel, reproducible evaluation paradigm that measures Large Language Models (LLMs) not only as prediction engines but as human-imitation systems operating in socially-grounded, high-entropy environments. Building on forward-looking, contamination-free tasks, our framework anchors evaluation to live prediction markets and combines probabilistic scoring to provide a holistic view of model behavior. TruthTensor complements traditional correctness metrics with drift-centric diagnostics and explicit robustness checks for reproducibility. It specify human vs. automated evaluation roles, annotation protocols, and statistical testing procedures to ensure interpretability and replicability of results. In experiments across 500+ real markets (political, economic, cultural, technological), TruthTensor demonstrates that models with similar forecast accuracy can diverge markedly in calibration, drift, and risk-sensitivity, underscoring the need to evaluate models along multiple axes (accuracy, calibration, narrative stability, cost, and resource efficiency). TruthTensor therefore operationalizes modern evaluation best practices, clear hypothesis framing, careful metric selection, transparent compute/cost reporting, human-in-the-loop validation, and open, versioned evaluation contracts, to produce defensible assessments of LLMs in real-world decision contexts. We publicly release TruthTensor at https://truthtensor.com
- Abstract(参考訳): 静的ベンチマークが現実の不確実性、分散シフト、および進化する条件下でのタスクの正確性と人間に沿った意思決定のギャップを捉えることができないため、言語モデルとAIエージェントの評価は基本的に難しいままである。
本稿では,大規模言語モデル(LLM)を予測エンジンとしてだけでなく,社会的に接地した高エントロピー環境下での人間模倣システムとして評価する,新しい再現可能な評価パラダイムであるTrathTensorを紹介する。
我々のフレームワークは前向きで汚染のないタスクに基づいて、生の予測市場に評価を固定し、確率的スコアを組み合わせることで、モデル行動の全体像を提供する。
TruthTensorは、従来の正確度メトリクスを、ドリフト中心の診断と再現性のための明確な堅牢性チェックで補完する。
結果の解釈可能性と複製性を保証するために、人間対自動評価ロール、アノテーションプロトコル、統計的テスト手順を指定する。
500以上の実市場(政治、経済、文化、技術)での実験において、TruthTensor氏は、同様の予測精度を持つモデルは、キャリブレーション、ドリフト、リスク感受性において著しくばらつき、複数の軸に沿ったモデル(正確性、キャリブレーション、物語の安定性、コスト、資源効率)を評価する必要性を強調している。
TruthTensorは、現代の評価のベストプラクティス、明確な仮説フレーミング、慎重なメートル法選択、透明な計算/コストレポート、ヒューマン・イン・ザ・ループ・バリデーション、オープンなバージョン付き評価契約を運用し、現実の意思決定コンテキストにおいてLLMの防御可能な評価を生成する。
TruthTensorはhttps://truthtensor.comで公開しています。
関連論文リスト
- AICO: Feature Significance Tests for Supervised Learning [0.9474649136535703]
AICOは、トレーニングされた回帰モデルや分類モデルに対して、各機能がモデルのパフォーマンスを真に改善するかどうかを問う。
機能の情報を隠蔽し、結果として生じるパフォーマンスの変化を測定することで実現します。
AICOは、モデルの振る舞いを駆動する変数を一貫して特定する。
論文 参考訳(メタデータ) (2025-06-29T21:15:40Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Probabilistic Machine Learning for Noisy Labels in Earth Observation [5.068845500478373]
我々は、広範囲の高インパクト地球観測アプリケーションにわたって、不確実性を考慮した確率モデルを訓練する。
予測された不確実性推定の信頼性を検証し、モデル予測の解釈可能性を高める。
本研究は, ラベルノイズをモデル化し, 不確実な定量化をEOに取り入れることの重要性を強調し, 現場でより正確で信頼性が高く, 信頼性の高いMLソリューションを実現するための道を開いた。
論文 参考訳(メタデータ) (2025-04-04T14:36:33Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Fair Multivariate Adaptive Regression Splines for Ensuring Equity and
Transparency [1.124958340749622]
学習過程に公平度を組み込んだMARSに基づく公正度予測モデルを提案する。
MARSは、特徴選択を行い、非線形関係を扱い、解釈可能な決定ルールを生成し、変数の最適分割基準を導出する非パラメトリック回帰モデルである。
実世界のデータにfairMARSモデルを適用し、精度とエクイティの観点からその有効性を実証する。
論文 参考訳(メタデータ) (2024-02-23T19:02:24Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。