論文の概要: LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena
- arxiv url: http://arxiv.org/abs/2502.17967v1
- Date: Tue, 25 Feb 2025 08:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:34.718673
- Title: LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena
- Title(参考訳): LLMはアルゲブラよりも幾何学が優れていることを知っている: 取引領域におけるLCMをベースとしたエージェントの数値的理解
- Authors: Tianmi Ma, Jiawei Du, Wenxin Huang, Wenjie Wang, Liang Xie, Xian Zhong, Joey Tianyi Zhou,
- Abstract要約: エージェントが株式ポートフォリオに投資するゼロサムゲームを通じて複雑な経済システムをシミュレーションする仮想数値ゲームを設計する。
実験の結果,GPT-4o を含む LLM は,大域的な傾向ではなく局所的な詳細に焦点を絞って,平文のストックデータを扱う場合の代数的推論に苦慮していることがわかった。
対照的に、LLMは、散布プロットやK線チャートのような視覚データで示される場合、幾何学的推論により大幅に向上する。
- 参考スコア(独自算出の注目度): 44.13836431002364
- License:
- Abstract: Recent advancements in large language models (LLMs) have significantly improved performance in natural language processing tasks. However, their ability to generalize to dynamic, unseen tasks, particularly in numerical reasoning, remains a challenge. Existing benchmarks mainly evaluate LLMs on problems with predefined optimal solutions, which may not align with real-world scenarios where clear answers are absent. To bridge this gap, we design the Agent Trading Arena, a virtual numerical game simulating complex economic systems through zero-sum games, where agents invest in stock portfolios. Our experiments reveal that LLMs, including GPT-4o, struggle with algebraic reasoning when dealing with plain-text stock data, often focusing on local details rather than global trends. In contrast, LLMs perform significantly better with geometric reasoning when presented with visual data, such as scatter plots or K-line charts, suggesting that visual representations enhance numerical reasoning. This capability is further improved by incorporating the reflection module, which aids in the analysis and interpretation of complex data. We validate our findings on NASDAQ Stock dataset, where LLMs demonstrate stronger reasoning with visual data compared to text. Our code and data are publicly available at https://github.com/wekjsdvnm/Agent-Trading-Arena.git.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、自然言語処理タスクの性能が大幅に向上した。
しかし、特に数値的推論において、動的で目に見えないタスクに一般化する能力は依然として課題である。
既存のベンチマークでは、あらかじめ定義された最適解の問題に対してLLMを評価しており、明確な答えが存在しない現実のシナリオと一致しない可能性がある。
このギャップを埋めるために、エージェント取引アリーナを設計する。これは、エージェントがストックポートフォリオに投資するゼロサムゲームを通して複雑な経済システムをシミュレートする仮想数値ゲームである。
実験の結果,GPT-4o を含む LLM は,大域的な傾向ではなく局所的な詳細に焦点を絞って,平文のストックデータを扱う場合の代数的推論に苦慮していることがわかった。
対照的に、LLMは、散乱プロットやK線チャートなどの視覚データで示される場合、幾何学的推論により大幅に向上し、視覚的表現が数値的推論を促進することを示唆している。
この機能は、複雑なデータの解析と解釈を支援するリフレクションモジュールを組み込むことでさらに改善される。
NASDAQ Stock データセットでは, LLM はテキストに比べて視覚的推論が強いことを示す。
私たちのコードとデータはhttps://github.com/wekjsdvnm/Agent-Trading-Arena.git.comで公開されています。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。