論文の概要: StakeBench: Evaluating Language Understanding Grounded in Market Commitment
- arxiv url: http://arxiv.org/abs/2605.26074v1
- Date: Mon, 25 May 2026 17:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.550456
- Title: StakeBench: Evaluating Language Understanding Grounded in Market Commitment
- Title(参考訳): StakeBench: 市場コミットメントに基づく言語理解の評価
- Authors: Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge,
- Abstract要約: StakeBenchは、市場のコミットメントに根ざした言語理解のための評価フレームワークである。
StakeBenchは2,261の市場から560,876件のコメントを入手した。
4つの診断タスクは、モデルが市場のコミットメントを検出し、明らかにされた側面を特定し、将来のアクションを予測し、集合的なオッズ予測を実行するかどうかをテストする。
- 参考スコア(独自算出の注目度): 5.902169076249955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing financial NLP benchmarks often rely on labels supplied by outside observers, measuring how language is perceived rather than what speakers have committed to in the market. We introduce StakeBench, an evaluation framework for language understanding grounded in market commitment. StakeBench links 560,876 comments from 2,261 resolved markets to verified position, action, and market-odds records across Polymarket and Manifold. Supervision is derived from observable market behavior. Position sides, post-comment trading actions, and market-odds trajectories replace human annotation. Four diagnostic tasks test whether models detect market commitment, identify the revealed side, anticipate future action, and perform collective odds projection. Three commitment-aware metrics measure alignment with revealed preferences rather than perceived sentiment. Validity audits and explicit interpretation boundaries help distinguish observable commitment signals from latent belief and causal market-odds impact. Across 15 LLMs and 18 topics and platform settings, models partially recover position-side signals, with Directed Accuracy from 0.506 to 0.599, but show structural failures on later tasks. Ten of the fifteen models collapse to one or two action labels in future action anticipation, and no model consistently improves on the naive odds-direction baseline in collective odds projection. Model scale is not correlated with performance, finance-domain tuning does not improve revealed-side identification, and platform incentives strongly shape higher-order results. StakeBench is packaged with evaluation code and dataset under CC-BY 4.0.
- Abstract(参考訳): 既存の金融NLPベンチマークは、しばしば外部のオブザーバが提供したラベルに依存しており、スピーカーが市場でコミットしたことよりも、言語がどのように認識されているかを測定する。
市場コミットメントに根ざした言語理解のための評価フレームワークであるStakeBenchを紹介する。
StakeBenchは2,261の市場からの560,876件のコメントを、PolymarketとManifoldのポジション、行動、および市場の不利な記録にリンクしている。
スーパービジョンは観測可能な市場行動に由来する。
ポジションサイド、ポストモーメントトレーディングアクション、マーケットオードの軌道は人間のアノテーションに取って代わる。
4つの診断タスクは、モデルが市場のコミットメントを検出し、明らかにされた側面を特定し、将来のアクションを予測し、集合的なオッズ予測を実行するかどうかをテストする。
コミットメントを意識した3つの指標は、感情ではなく、明らかな嗜好との整合を測定する。
妥当性監査と明確な解釈境界は、観測可能なコミットメントのシグナルと、潜伏した信念と因果的市場利益の影響を区別するのに役立ちます。
15のLLMと18のトピックとプラットフォーム設定で、モデルが部分的に位置側の信号を回復し、Directed Accuracyは0.506から0.599になったが、後続のタスクでは構造上の障害が見られた。
15モデルのうち10モデルは、将来のアクション予測において1つか2つのアクションラベルに崩壊し、集団オッズ投影において単純なオッズ方向ベースラインを一貫して改善するモデルは存在しない。
モデルスケールは性能と相関せず、財務領域のチューニングは明らかな側面の識別を改善しておらず、プラットフォームインセンティブは高次の結果を強く形作っている。
StakeBenchはCC-BY 4.0で評価コードとデータセットをパッケージされている。
関連論文リスト
- Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents [0.0]
私たちはForesight Arenaを紹介します。これは、現実世界の予測市場でAI予測エージェントを評価するための、最初の無許可のオンチェーンベンチマークです。
パフォーマンスはBrier ScoreとAlpha Scoreによって測定される。
80%のパワーで$* = 0.02$の真のエッジを検出するには、約350の解決されたバイナリ予測が必要である。
論文 参考訳(メタデータ) (2026-05-01T05:33:10Z) - Price as Focal Point: Prediction Markets,Conditional Reflexivity, and the Politics of Common Knowledge [0.0]
市場信号の社会的力は、その持続性、反応するトレーダーの幅、およびクロスプラットフォームのコンセンサスに依存しないことを示す。
本稿では,SCI(Signal Credibility Index)を,価格変動による行動トラクションの予測のためのマイクロ構造基準として導入する。
論文 参考訳(メタデータ) (2026-04-27T08:02:34Z) - Objective Mispricing Detection for Shortlisting Undervalued Football Players via Market Dynamics and News Signals [1.6312989763677892]
本稿では,客観的なミスプライシングを前提とした,過小評価されたサッカー選手を特定するための,実用的で再現可能な枠組みを提案する。
構造化されたデータ(歴史市場ダイナミクス、伝記・契約の特徴、転送履歴)から期待される市場価値を推定し、観測された評価値と比較し、誤算を定義する。
次に,ニュースから派生した自然言語処理(NLP)が,過小評価された選手の市場信号を補完するかどうかを評価する。
論文 参考訳(メタデータ) (2026-03-18T13:03:23Z) - TraderBench: How Robust Are AI Agents in Adversarial Capital Markets? [8.661756660747042]
TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
論文 参考訳(メタデータ) (2026-02-27T20:06:28Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - A Sentiment Analysis Approach to the Prediction of Market Volatility [62.997667081978825]
金融ニュースとツイートから抽出された感情とFTSE100の動きの関係を調べました。
ニュース見出しから得られた感情は、市場のリターンを予測するシグナルとして使われる可能性があるが、ボラティリティには当てはまらない。
我々は,新たな情報の到着に応じて,市場の変動を予測するための正確な分類器を開発した。
論文 参考訳(メタデータ) (2020-12-10T01:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。