論文の概要: Reasoning and Tools for Human-Level Forecasting
- arxiv url: http://arxiv.org/abs/2408.12036v1
- Date: Wed, 21 Aug 2024 23:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:43:39.997580
- Title: Reasoning and Tools for Human-Level Forecasting
- Title(参考訳): ヒューマンレベル予測のための推論とツール
- Authors: Elvis Hsieh, Preston Fu, Jonathan Chen,
- Abstract要約: 本稿では,Reasoning and Tools for Forecasting (RTF)について紹介する。
我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
- 参考スコア(独自算出の注目度): 0.4261908132550109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) trained on web-scale datasets are largely successful due to their ability to memorize large amounts of training data, even if only present in a few examples. These capabilities are often desirable in evaluation on tasks such as question answering but raise questions about whether these models can exhibit genuine reasoning or succeed only at mimicking patterns from the training data. This distinction is particularly salient in forecasting tasks, where the answer is not present in the training data, and the model must reason to make logical deductions. We present Reasoning and Tools for Forecasting (RTF), a framework of reasoning-and-acting (ReAct) agents that can dynamically retrieve updated information and run numerical simulation with equipped tools. We evaluate our model with questions from competitive forecasting platforms and demonstrate that our method is competitive with and can outperform human predictions. This suggests that LMs, with the right tools, can indeed think and adapt like humans, offering valuable insights for real-world decision-making.
- Abstract(参考訳): Webスケールのデータセットでトレーニングされた言語モデル(LM)は、たとえいくつかの例にしか存在しないとしても、大量のトレーニングデータを記憶する能力により、大きな成功を収めている。
これらの能力は、質問応答のようなタスクの評価において望ましいが、これらのモデルが真の推論を示すか、トレーニングデータからパターンを模倣するだけに成功するかという疑問を提起する。
この区別は、トレーニングデータに答えが存在しないタスクを予測するのに特に有益であり、モデルが論理的推論を行う理由が必要である。
本稿では,Reasoning and Tools for Forecasting(RTF)について紹介する。Reasoning-acting(ReAct)エージェントのフレームワークで,更新情報を動的に取得し,装備ツールを用いて数値シミュレーションを行うことができる。
我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。
これは、LMが正しいツールを使って、実際に人間のように考え、適応でき、現実世界の意思決定に貴重な洞察を与えることを示唆している。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Optimal design of experiments in the context of machine-learning inter-atomic potentials: improving the efficiency and transferability of kernel based methods [0.7234862895932991]
原子間相互作用のデータ駆動機械学習(ML)モデルは、原子配列のニュアンスな側面をエネルギーと力の予測に関連付けることができる。
主な課題は、化学環境のディスクリプタが、よく明確に定義された連続計量のない高次元の物体であるという事実に起因している。
実験の統計的計画と最適設計の古典的な概念は、そのような問題を比較的低い計算コストで緩和するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-05-14T14:14:23Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Using Shape Metrics to Describe 2D Data Points [0.0]
本稿では,2次元データを記述するために形状計測を用いて,解析をより説明しやすく解釈可能にすることを提案する。
これは、説明可能性の権利が不可欠である医療コミュニティにおける応用において特に重要である。
論文 参考訳(メタデータ) (2022-01-27T23:28:42Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。