論文の概要: Learning to Aggregate Zero-Shot LLM Agents for Corporate Disclosure Classification
- arxiv url: http://arxiv.org/abs/2603.20965v1
- Date: Sat, 21 Mar 2026 22:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.170955
- Title: Learning to Aggregate Zero-Shot LLM Agents for Corporate Disclosure Classification
- Title(参考訳): 企業開示分類のためのゼロショットLDMエージェントの集約学習
- Authors: Kemal Kirtac,
- Abstract要約: 本稿では,軽量訓練アグリゲータが多種多様なゼロショット大言語モデル判断を,より強力な下流信号に組み合わせてコーポレート開示分類を行うことができるかどうかを考察する。
2018年から2024年にかけて、ナスダックとS&P500社が発行した18,420件の米企業情報開示のサンプルを、翌日の株価リターンと一致させました。
その結果、トレーニングされたアグリゲータは、すべてのシングルエージェント、多数決、信頼度の高い投票、およびFinBERTベースラインを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies whether a lightweight trained aggregator can combine diverse zero-shot large language model judgments into a stronger downstream signal for corporate disclosure classification. Zero-shot LLMs can read disclosures without task-specific fine-tuning, but their predictions often vary across prompts, reasoning styles, and model families. I address this problem with a multi-agent framework in which three zero-shot agents independently read each disclosure and output a sentiment label, a confidence score, and a short rationale. A logistic meta-classifier then aggregates these signals to predict next-day stock return direction. I use a sample of 18,420 U.S. corporate disclosures issued by Nasdaq and S&P 500 firms between 2018 and 2024, matched to next-day stock returns. Results show that the trained aggregator outperforms all single agents, majority vote, confidence-weighted voting, and a FinBERT baseline. Balanced accuracy rises from 0.561 for the best single agent to 0.612 for the trained aggregator, with the largest gains in disclosures combining strong current performance with weak guidance or elevated risk. The results suggest that zero-shot LLM agents capture complementary financial signals and that supervised aggregation can turn cross-agent disagreement into a more useful classification target.
- Abstract(参考訳): 本稿では,軽量訓練アグリゲータが多種多様なゼロショット大言語モデル判断を,より強力な下流信号に組み合わせてコーポレート開示分類を行うことができるかどうかを考察する。
ゼロショットLLMはタスク固有の微調整なしで公開を読み取ることができるが、その予測はプロンプト、推論スタイル、モデルファミリーによって異なることが多い。
この問題は、3つのゼロショットエージェントが独立して各公開を読み取り、感情ラベル、信頼スコア、短い根拠を出力するマルチエージェントフレームワークを用いて解決する。
その後、ロジスティックメタ分類器がこれらの信号を集約し、翌日のストックリターン方向を予測する。
2018年から2024年にかけて、ナスダックとS&P500社が発行した18,420件の米企業情報開示のサンプルを、翌日の株価リターンと一致させました。
その結果、トレーニングされたアグリゲータは、すべてのシングルエージェント、多数決、信頼度の高い投票、およびFinBERTベースラインを上回ります。
バランスの取れた精度は、最高のシングルエージェントが0.561から訓練されたアグリゲータが0.612に上昇し、強い電流性能と弱い誘導または高いリスクが組み合わさった開示が最大の利益となる。
その結果,ゼロショットLLMエージェントは相補的な金融信号を捕捉し,教師付きアグリゲーションにより,エージェント間の不一致をより有用な分類対象にすることができることが示唆された。
関連論文リスト
- FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文 参考訳(メタデータ) (2026-03-20T10:24:50Z) - Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization [1.0957528713294875]
LLMのトレーディングエージェントは、記憶されたティッカー・アソシエーションの活用よりも、市場のダイナミクスの理解を実証しなければならない。
我々は,チッカー固有の事前トレーニングによる記憶バイアスと,欠陥のあるバックテストによる生存バイアスの2つの源泉に対処する。
我々のアプローチは、エージェントを盲目化し、すべての識別子を匿名化し、意味のあるシグナルが持続するかどうかを検証することである。
論文 参考訳(メタデータ) (2026-03-18T13:09:11Z) - From Stochastic Answers to Verifiable Reasoning: Interpretable Decision-Making with LLM-Generated Code [0.0]
大規模言語モデル(LLM)は、高い意思決定にますます使われている。
ブラックボックスモデルはそれらの推論を曖昧にし、最近のLCMベースのルールシステムはサンプル単位の評価に依存している。
我々は,LLMをインスタンスごとの評価器ではなくコードジェネレータとして再フレーミングすることを提案する。
論文 参考訳(メタデータ) (2026-02-28T00:27:29Z) - Benchmarking Zero-Shot Reasoning Approaches for Error Detection in Solidity Smart Contracts [0.0]
本稿では,400契約のバランスデータセットを用いて,Solidityスマートコントラクト分析の最先端LCMについて検討する。
モデルは、ゼロショット、ゼロショット・オブ・ソート(CoT)、ゼロショット・オブ・ソート(ToT)を含むゼロショット・プロンプト戦略を用いて評価される。
論文 参考訳(メタデータ) (2026-02-17T18:08:56Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading [0.0]
本研究では,金融意味論とアルファ信号発見における大規模言語モデル(LLM)のユニークな有用性を示す。
LLMを使用して、マルチラベルイベントカテゴリを高感度のツイートに自動的に割り当てる。
実験の結果、特定のイベントラベルは負のアルファを連続的に生成し、シャープ比は-0.38、情報係数は0.05を超えることがわかった。
論文 参考訳(メタデータ) (2025-08-10T16:09:14Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification [7.303409990401068]
大規模言語モデル(LLM)は、いくつかのNLPタスクにおいて最先端と見なされている。
本研究では,11の感情分析データセットを対象とした3つの1stTRと2つのオープンLLMを比較した。
本稿では,1stTR をオープン LLM とシームレスに統合する戦略を提案する。
論文 参考訳(メタデータ) (2024-08-19T01:22:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。