論文の概要: Can foundation models actively gather information in interactive environments to test hypotheses?
- arxiv url: http://arxiv.org/abs/2412.06438v2
- Date: Tue, 07 Oct 2025 11:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.590154
- Title: Can foundation models actively gather information in interactive environments to test hypotheses?
- Title(参考訳): 基礎モデルは、仮説をテストするためにインタラクティブな環境で情報を積極的に収集できるのか?
- Authors: Danny P. Sawyer, Nan Rosemary Ke, Hubert Soyer, Martin Engelcke, David P Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Mozer, Jane X Wang,
- Abstract要約: 基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
- 参考スコア(独自算出の注目度): 43.42688356541211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models excel at single-turn reasoning but struggle with multi-turn exploration in dynamic environments, a requirement for many real-world challenges. We evaluated these models on their ability to learn from experience, adapt, and gather information. First, in "Feature World," a simple setting for testing information gathering, models performed near-optimally. However, to test more complex, multi-trial learning, we implemented a text-based version of the "Alchemy" environment, a benchmark for meta-learning. Here, agents must deduce a latent causal structure by integrating information across many trials. In this setting, recent foundation models initially failed to improve their performance over time. Crucially, we found that prompting the models to summarize their observations at regular intervals enabled an emergent meta-learning process. This allowed them to improve across trials and even adaptively re-learn when the environment's rules changed unexpectedly. While most models handled the simple task, Alchemy revealed stark differences in robustness: Gemini 2.5 performed best, followed by Claude 3.7, while ChatGPT-4o and o4-mini struggled. This underscores Alchemy's value as a benchmark. Our findings demonstrate that the biggest challenge for foundation models is not selecting informative actions in the moment, but integrating knowledge through adaptive strategies over time. Encouragingly, there appears to be no intrinsic barrier to future models mastering these abilities.
- Abstract(参考訳): ファンデーションモデルはシングルターン推論において優れているが、多くの現実の課題に対する要件である動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
まず、情報収集を簡易に行う「Feature World」において、モデルがほぼ最適に実行された。
しかし,より複雑で多段階的な学習をテストするために,メタラーニングのベンチマークである"Alchemy"環境のテキストベースのバージョンを実装した。
ここでは、エージェントは、多くの試行にまたがる情報を統合することにより、潜伏した因果構造を推論しなければならない。
この設定では、最近のファンデーションモデルは、当初は時間とともにパフォーマンスを改善できなかった。
重要なことは、モデルが定期的に観察を要約するように促すことによって、創発的なメタラーニングプロセスが実現できることである。
これにより、試験を通じて改善が可能となり、環境のルールが予期せず変わったときに適応的に再学習することさえできた。
ジェミニ2.5が最高に、クロード3.7が続く一方、ChatGPT-4oとo4-miniは苦戦した。
これはAlchemyのベンチマークの価値を裏付けるものだ。
この結果から,基盤モデルの最大の課題は,情報的行動の選択ではなく,時間とともに適応的戦略を通じて知識を統合することである。
こうした能力を習得する将来のモデルには、本質的な障壁がないようだ。
関連論文リスト
- Do Retrieval-Augmented Language Models Adapt to Varying User Needs? [28.729041459278587]
本稿では,3つのユーザニーズ条件下でALMを体系的に評価する新しい評価フレームワークを提案する。
ユーザインストラクションと検索された情報の性質の両方を変えることで、我々のアプローチは現実世界のアプリケーションの複雑さを捉えます。
本研究は,検索システム開発におけるユーザ中心評価の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-02-27T05:39:38Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - SMamba: Sparse Mamba for Event-based Object Detection [17.141967728323714]
トランスフォーマーに基づく手法は、グローバルなモデリング能力のため、イベントベースのオブジェクト検出において顕著な性能を達成している。
コストを軽減するために、窓の注意に基づくスペーサー化戦略を提案し、重要でない地域を排除している研究者もいる。
本研究では,グローバルなモデリング能力を維持しつつ,計算労力を削減するために適応的なスカラー化を行うSparse Mambaを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:33:32Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。