論文の概要: Stance Detection in Prediction Markets: Addressing Imbalanced Trader Commentary via Counterfactual Augmentation and Market Context
- arxiv url: http://arxiv.org/abs/2605.28745v1
- Date: Wed, 27 May 2026 17:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.237884
- Title: Stance Detection in Prediction Markets: Addressing Imbalanced Trader Commentary via Counterfactual Augmentation and Market Context
- Title(参考訳): 予測市場におけるスタンス検出:非バランスなトレーダーのコメントに対処する
- Authors: Thomas Mbrice,
- Abstract要約: 本研究は,市場予測に応用された最初の姿勢検出研究を紹介する。
市場状況は最も影響の大きい要因であり、3クラスアンチリコールを0.10から0.45に引き上げている。
50%の増量が最適用量であり、100%の持続的な性能が損なわれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prediction markets such as Polymarket aggregate crowd beliefs into real-time probability estimates, and the comments traders post beneath each market contain rich directional stance signals that prices alone cannot capture. This work introduces the first stance detection study applied to prediction market commentary, a domain characterized by extreme brevity, trader- specific vernacular, and severe class imbalance (only 8.7% of comments oppose the market outcome). RoBERTa-base is fine-tuned across a 4 x 3 ablation: four input configurations ({2- class, 3-class} x {with/without market context}) and three augmentation conditions (baseline, 50% synthetic, 100% synthetic). Synthetic minority-class samples are generated via LLM-driven Pro -> Anti counterfactual flips using the Anthropic API. Results show that (1) market context is the single most impactful factor, raising 3-class Anti recall from 0.10 to 0.45; (2) counterfactual augmentation is conditionally effective, improving Anti F1 in weak configurations (0.10 -> 0.24) while degrading strong ones (2-class-ctx macro F1: 0.68 -> 0.50 at full dose); and (3) 50% augmentation is the optimal dose, with 100% consistently hurting performance. Attention-based interpretability analysis provides mechanistic support for all three findings.
- Abstract(参考訳): ポリマーケットなどの予測市場は、群衆の信条をリアルタイムの確率推定に集約し、各市場の下のコメントトレーダーは、価格だけでは捉えられないような方向性の強い兆候を持っている。
本研究は、市場予想に適用される最初のスタンス検出研究であり、極端な簡潔さ、トレーダー固有の頂点、厳しい階級不均衡(市場の結果に反対するコメントのわずか8.7%)を特徴とする領域である。
4つの入力構成({2-class, 3-class} x {with/with/with/without market context})と3つの拡張条件(ベースライン、50%合成、100%合成)である。
合成マイノリティクラスサンプルは、LLM駆動のPro->反ファクトのフリップによって、Arthropic APIを用いて生成される。
その結果,(1) 市場状況は, 1級アンチリコールを0.10から0.45に引き上げ,(2) 反F1を弱い構成(0.10~>0.24)で改善し, 強み(2-class-ctx macro F1: 0.68~>0.50をフル線量で低下させ, (3) 50% 増強が最適線量であり, 100% 連続的に性能が低下した。
注意に基づく解釈可能性分析は、3つの発見すべてに対して機械的支援を提供する。
関連論文リスト
- StakeBench: Evaluating Language Understanding Grounded in Market Commitment [5.902169076249955]
StakeBenchは、市場のコミットメントに根ざした言語理解のための評価フレームワークである。
StakeBenchは2,261の市場から560,876件のコメントを入手した。
4つの診断タスクは、モデルが市場のコミットメントを検出し、明らかにされた側面を特定し、将来のアクションを予測し、集合的なオッズ予測を実行するかどうかをテストする。
論文 参考訳(メタデータ) (2026-05-25T17:38:30Z) - Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality? [74.69723255239663]
グラウンドド・パーソナリティ・推論は、MLLMがそれぞれのビッグファイブ・格付けを、評価、推論、根拠の連鎖を通じて観察可能な証拠に固定することを要求する。
MM-OCEANは、人間の検証によるマルチエージェントパイプラインによって生成され、タイムスタンプによる行動観察、エビデンスに基づく特性分析、およびキューグラウンドMCQの7つのカテゴリがある。
この分析では、フィールド全体にわたって、正しい評価の51%が取得された手がかりに基づかず、ホリスティック・ギャラリング・レートは0-33.5%にしか達していないという顕著な偏見のギャップが明らかになった。
論文 参考訳(メタデータ) (2026-05-21T07:42:47Z) - Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents [0.0]
私たちはForesight Arenaを紹介します。これは、現実世界の予測市場でAI予測エージェントを評価するための、最初の無許可のオンチェーンベンチマークです。
パフォーマンスはBrier ScoreとAlpha Scoreによって測定される。
80%のパワーで$* = 0.02$の真のエッジを検出するには、約350の解決されたバイナリ予測が必要である。
論文 参考訳(メタデータ) (2026-05-01T05:33:10Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis [1.2362187555287152]
本稿では,ノードトランスアーキテクチャとBERTに基づく感情分析を組み合わせた株価予測フレームワークを提案する。
提案モデルは,個々の株式がノードを形成し,エッジが関係をキャプチャするグラフ構造として,株式市場を表現している。
1982年1月から2025年3月までの20株のS&P500株に対する実験では、統合モデルが平均絶対パーセンテージ誤差(MAPE)を1日の予測で0.80%達成していることが示されている。
論文 参考訳(メタデータ) (2026-03-06T05:15:22Z) - TraderBench: How Robust Are AI Agents in Adversarial Capital Markets? [8.661756660747042]
TraderBenchは金融のAIエージェントを評価するためのベンチマークである。
専門家が検証した静的タスク(知識検索、分析的推論)と敵の取引シミュレーションを組み合わせる。
2つの新しいトラック:4つのプログレッシブ・マーケット・マニピュレーション・トランスフォーメーションによる暗号取引、オプションデリバティブはP&Lの正確性、ギリシャ人、リスク管理である。
論文 参考訳(メタデータ) (2026-02-27T20:06:28Z) - Forecasting Future Language: Context Design for Mention Markets [81.25011140991566]
我々は、参照市場における正確な予測を支援するために、入力コンテキストをどのように設計するかを検討する。
1 より豊かなコンテキストは予測性能を継続的に改善し、(2)市場条件付きプロンプト(MCP)は事前の市場確率を扱い、テキストによる証拠を用いてそれを更新し、より良いキャリブレーションの予測を得る、(3)市場確率とMCP(MixMCP)の混合が市場ベースラインを上回っている、という3つの洞察を得た。
論文 参考訳(メタデータ) (2026-02-04T12:43:31Z) - The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。
LLMの時系列予測品質を評価する能力を評価する。
合成および実世界の予測データを含む3つの実験を行った。
論文 参考訳(メタデータ) (2025-12-12T21:59:53Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。