論文の概要: Can foundation models actively gather information in interactive environments to test hypotheses?
- arxiv url: http://arxiv.org/abs/2412.06438v1
- Date: Mon, 09 Dec 2024 12:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:10.015883
- Title: Can foundation models actively gather information in interactive environments to test hypotheses?
- Title(参考訳): 基礎モデルは、仮説をテストするためにインタラクティブな環境で情報を積極的に収集できるのか?
- Authors: Nan Rosemary Ke, Danny P. Sawyer, Hubert Soyer, Martin Engelcke, David P Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Mozer, Jane X Wang,
- Abstract要約: 隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
- 参考スコア(独自算出の注目度): 56.651636971591536
- License:
- Abstract: While problem solving is a standard evaluation task for foundation models, a crucial component of problem solving -- actively and strategically gathering information to test hypotheses -- has not been closely investigated. To assess the information gathering abilities of foundation models in interactive environments, we introduce a framework in which a model must determine the factors influencing a hidden reward function by iteratively reasoning about its previously gathered information and proposing its next exploratory action to maximize information gain at each step. We implement this framework in both a text-based environment, which offers a tightly controlled setting and enables high-throughput parameter sweeps, and in an embodied 3D environment, which requires addressing complexities of multi-modal interaction more relevant to real-world applications. We further investigate whether approaches such as self-correction and increased inference time improve information gathering efficiency. In a relatively simple task that requires identifying a single rewarding feature, we find that LLM's information gathering capability is close to optimal. However, when the model must identify a conjunction of rewarding features, performance is suboptimal. The hit in performance is due partly to the model translating task description to a policy and partly to the model's effectiveness in using its in-context memory. Performance is comparable in both text and 3D embodied environments, although imperfect visual object recognition reduces its accuracy in drawing conclusions from gathered information in the 3D embodied case. For single-feature-based rewards, we find that smaller models curiously perform better; for conjunction-based rewards, incorporating self correction into the model improves performance.
- Abstract(参考訳): 問題解決は基礎モデルの標準的な評価課題であるが、問題解決の重要な要素は、積極的に戦略的に情報を収集して仮説をテストすることである。
対話型環境における基礎モデルの情報収集能力を評価するために,これまでに収集した情報を反復的に分析し,各段階における情報獲得を最大化するための探索的行動を提案することによって,隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
我々はこのフレームワークを,厳密に制御された設定を提供し,高スループットのパラメータスイープを可能にするテキストベースの環境と,実世界のアプリケーションとより関連性の高いマルチモーダルインタラクションの複雑さに対処する必要のある具体化された3D環境の両方に実装する。
さらに、自己補正や推論時間の増加といったアプローチが情報収集効率を向上させるかどうかについても検討する。
1つの報酬機能を特定することを必要とする比較的単純なタスクでは、LLMの情報収集能力が最適に近いことが分かる。
しかし、モデルが報酬機能の組み合わせを識別しなければならない場合、パフォーマンスは最適以下である。
パフォーマンスのヒットは、部分的にはタスク記述をポリシーに変換するモデルと、部分的にはコンテキスト内メモリの使用におけるモデルの有効性に起因している。
テキストと3Dエンボディ環境の両方で性能は同等であるが、不完全な視覚オブジェクト認識は、3Dエンボディ環境で収集された情報から結論を引き出す際の精度を低下させる。
単一機能ベースの報酬では、小さなモデルの方が好奇心をそそられ、結合ベースの報酬では、自己修正をモデルに組み込むことで、パフォーマンスが向上する。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - SMamba: Sparse Mamba for Event-based Object Detection [17.141967728323714]
トランスフォーマーに基づく手法は、グローバルなモデリング能力のため、イベントベースのオブジェクト検出において顕著な性能を達成している。
コストを軽減するために、窓の注意に基づくスペーサー化戦略を提案し、重要でない地域を排除している研究者もいる。
本研究では,グローバルなモデリング能力を維持しつつ,計算労力を削減するために適応的なスカラー化を行うSparse Mambaを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:33:32Z) - Decoupled and Interactive Regression Modeling for High-performance One-stage 3D Object Detection [8.531052087985097]
回帰タスクにおけるバウンディングボックスモデリングの不十分さは、1段階の3Dオブジェクト検出の性能を制約する。
一段階検出のための疎結合・インタラクティブ回帰モデリング(DIRM)を提案する。
論文 参考訳(メタデータ) (2024-09-01T10:47:22Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。