論文の概要: When Missing Becomes Structure: Intent-Preserving Policy Completion from Financial KOL Discourse
- arxiv url: http://arxiv.org/abs/2604.14333v2
- Date: Fri, 17 Apr 2026 15:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.380391
- Title: When Missing Becomes Structure: Intent-Preserving Policy Completion from Financial KOL Discourse
- Title(参考訳): 失業が構造になるとき--金融KOL談話からの漸進的保全政策完了
- Authors: Yuncong Liu, Yuan Wan, Zhou Jiang, Yao Lu,
- Abstract要約: ソーシャルメディアにおけるキーオピニオンリーダー(KOL)の談話は、投資指導として広く消費されている。
KOL文のギャップは、ランダムな欠陥ではなく、構造化された分離である。
我々は、KOL談話を部分的な貿易政策として扱う意図保存政策完成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.547506168392072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key Opinion Leader (KOL) discourse on social media is widely consumed as investment guidance, yet turning it into executable trading strategies without injecting assumptions about unspecified execution decisions remains an open problem. We observe that the gaps in KOL statements are not random deficiencies but a structured separation: KOLs express directional intent (what to buy or sell and why) while leaving execution decisions (when, how much, how long) systematically unspecified. Building on this observation, we propose an intent-preserving policy completion framework that treats KOL discourse as a partial trading policy and uses offline reinforcement learning to complete the missing execution decisions around the KOL-expressed intent. Experiments on multimodal KOL discourse from YouTube and X (2022-2025) show that KICL achieves the best return and Sharpe ratio on both platforms while maintaining zero unsupported entries and zero directional reversals, and ablations confirm that the full framework yields an 18.9% return improvement over the KOL-aligned baseline.
- Abstract(参考訳): ソーシャルメディアにおけるキー・オピニオン・リーダー(KOL)の談話は、投資指針として広く消費されているが、不特定実行決定に関する仮定を注入することなく、実行可能なトレーディング戦略へと転換することは、未解決の問題である。
我々は、KOL文のギャップはランダムな欠陥ではなく、構造化された分離であると考えている。
本研究は,KOL談話を部分的貿易政策として扱い,オフライン強化学習を用いて,KOL表現された意図に関する実行決定の欠如を解消する意図保存型政策完成フレームワークを提案する。
YouTubeとX(2022-2025)によるマルチモーダルKOL談話の実験では、KICLは、ゼロセカンダリエントリとゼロ方向逆転を維持しながら、両方のプラットフォームで最高のリターンとシャープ比を達成した。
関連論文リスト
- BridgeSim: Unveiling the OL-CL Gap in End-to-End Autonomous Driving [32.683768013929004]
Open-loop (OL) to closed-loop (CL) gap (OL-CL gap) は、OLに制限されたポリシーが閉ループ (CL) デプロイメントにおいて効果的に転送できない場合に存在する。
我々は、OLポリシーが観測ドメインシフトとObjective Mismatchに悩まされていることを実証する。
本稿では,観測シフトを校正し,状態-動作バイアスを低減し,時間的一貫性を強制するテスト時適応フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T23:37:07Z) - Verification of Robust Properties for Access Control Policies [51.736723807086385]
既存のアクセス制御ポリシーの検証方法は、検証が進む前に、ポリシーを完全かつ完全に決定する必要がある。
本稿では,政策構造がどのような決定を下すか,どのような決定を下すか,あるいはその後の拡張に拘わらず,その決定を行うかという課題について,ロバストなプロパティ検証を導入する。
可能なすべてのポリシー拡張を普遍的に定量化しているにもかかわらず、判断は二階述語論理プログラミング言語における探索の証明に還元されることを示す。
論文 参考訳(メタデータ) (2026-03-13T17:14:38Z) - From Debate to Deliberation: Structured Collective Reasoning with Typed Epistemic Acts [0.0]
デリバティブ・コレクター・インテリジェンス(Deliberative Collective Intelligence, DCI)は、異なる参加者が型付き推論の動きを交換し、意見の不一致を保ち、説明責任のある結果に収束する段階的なプロセスである。
Gemini 2.5 Flashを使って、7つのドメインで45のタスクを評価します。
DCIは100%構造化された決定パケットと98%のマイノリティレポートを生成し、すべてのベースラインが欠落している。
論文 参考訳(メタデータ) (2026-03-12T10:39:41Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - Causal Flow Q-Learning for Robust Offline Reinforcement Learning [53.63254824501714]
構築された実演から表現型フローマッチングポリシーを学習する実践的実装を提案する。
提案手法は,最先端のオフラインRL法よりも120%の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-02T21:50:52Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - Budgeting Counterfactual for Offline RL [25.918011878015136]
本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。
そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
論文 参考訳(メタデータ) (2023-07-12T17:47:35Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。