論文の概要: Can foundation models actively gather information in interactive environments to test hypotheses?
- arxiv url: http://arxiv.org/abs/2412.06438v1
- Date: Mon, 09 Dec 2024 12:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.337729
- Title: Can foundation models actively gather information in interactive environments to test hypotheses?
- Title(参考訳): 基礎モデルは、仮説をテストするためにインタラクティブな環境で情報を積極的に収集できるのか?
- Authors: Nan Rosemary Ke, Danny P. Sawyer, Hubert Soyer, Martin Engelcke, David P Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Mozer, Jane X Wang,
- Abstract要約: 隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
- 参考スコア(独自算出の注目度): 56.651636971591536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While problem solving is a standard evaluation task for foundation models, a crucial component of problem solving -- actively and strategically gathering information to test hypotheses -- has not been closely investigated. To assess the information gathering abilities of foundation models in interactive environments, we introduce a framework in which a model must determine the factors influencing a hidden reward function by iteratively reasoning about its previously gathered information and proposing its next exploratory action to maximize information gain at each step. We implement this framework in both a text-based environment, which offers a tightly controlled setting and enables high-throughput parameter sweeps, and in an embodied 3D environment, which requires addressing complexities of multi-modal interaction more relevant to real-world applications. We further investigate whether approaches such as self-correction and increased inference time improve information gathering efficiency. In a relatively simple task that requires identifying a single rewarding feature, we find that LLM's information gathering capability is close to optimal. However, when the model must identify a conjunction of rewarding features, performance is suboptimal. The hit in performance is due partly to the model translating task description to a policy and partly to the model's effectiveness in using its in-context memory. Performance is comparable in both text and 3D embodied environments, although imperfect visual object recognition reduces its accuracy in drawing conclusions from gathered information in the 3D embodied case. For single-feature-based rewards, we find that smaller models curiously perform better; for conjunction-based rewards, incorporating self correction into the model improves performance.
- Abstract(参考訳): 問題解決は基礎モデルの標準的な評価課題であるが、問題解決の重要な要素は、積極的に戦略的に情報を収集して仮説をテストすることである。
対話型環境における基礎モデルの情報収集能力を評価するために,これまでに収集した情報を反復的に分析し,各段階における情報獲得を最大化するための探索的行動を提案することによって,隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
我々はこのフレームワークを,厳密に制御された設定を提供し,高スループットのパラメータスイープを可能にするテキストベースの環境と,実世界のアプリケーションとより関連性の高いマルチモーダルインタラクションの複雑さに対処する必要のある具体化された3D環境の両方に実装する。
さらに、自己補正や推論時間の増加といったアプローチが情報収集効率を向上させるかどうかについても検討する。
1つの報酬機能を特定することを必要とする比較的単純なタスクでは、LLMの情報収集能力が最適に近いことが分かる。
しかし、モデルが報酬機能の組み合わせを識別しなければならない場合、パフォーマンスは最適以下である。
パフォーマンスのヒットは、部分的にはタスク記述をポリシーに変換するモデルと、部分的にはコンテキスト内メモリの使用におけるモデルの有効性に起因している。
テキストと3Dエンボディ環境の両方で性能は同等であるが、不完全な視覚オブジェクト認識は、3Dエンボディ環境で収集された情報から結論を引き出す際の精度を低下させる。
単一機能ベースの報酬では、小さなモデルの方が好奇心をそそられ、結合ベースの報酬では、自己修正をモデルに組み込むことで、パフォーマンスが向上する。
関連論文リスト
- Do Retrieval-Augmented Language Models Adapt to Varying User Needs? [28.729041459278587]
本稿では,3つのユーザニーズ条件下でALMを体系的に評価する新しい評価フレームワークを提案する。
ユーザインストラクションと検索された情報の性質の両方を変えることで、我々のアプローチは現実世界のアプリケーションの複雑さを捉えます。
本研究は,検索システム開発におけるユーザ中心評価の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-02-27T05:39:38Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - SMamba: Sparse Mamba for Event-based Object Detection [17.141967728323714]
トランスフォーマーに基づく手法は、グローバルなモデリング能力のため、イベントベースのオブジェクト検出において顕著な性能を達成している。
コストを軽減するために、窓の注意に基づくスペーサー化戦略を提案し、重要でない地域を排除している研究者もいる。
本研究では,グローバルなモデリング能力を維持しつつ,計算労力を削減するために適応的なスカラー化を行うSparse Mambaを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:33:32Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。