Fugu-MT 論文翻訳(概要): Can foundation models actively gather information in interactive environments to test hypotheses?

論文の概要: Can foundation models actively gather information in interactive environments to test hypotheses?

arxiv url: http://arxiv.org/abs/2412.06438v1
Date: Mon, 09 Dec 2024 12:27:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.337729
Title: Can foundation models actively gather information in interactive environments to test hypotheses?
Title（参考訳）: 基礎モデルは、仮説をテストするためにインタラクティブな環境で情報を積極的に収集できるのか?
Authors: Nan Rosemary Ke, Danny P. Sawyer, Hubert Soyer, Martin Engelcke, David P Reichert, Drew A. Hudson, John Reid, Alexander Lerchner, Danilo Jimenez Rezende, Timothy P Lillicrap, Michael Mozer, Jane X Wang,
Abstract要約: 隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
参考スコア（独自算出の注目度）: 56.651636971591536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While problem solving is a standard evaluation task for foundation models, a crucial component of problem solving -- actively and strategically gathering information to test hypotheses -- has not been closely investigated. To assess the information gathering abilities of foundation models in interactive environments, we introduce a framework in which a model must determine the factors influencing a hidden reward function by iteratively reasoning about its previously gathered information and proposing its next exploratory action to maximize information gain at each step. We implement this framework in both a text-based environment, which offers a tightly controlled setting and enables high-throughput parameter sweeps, and in an embodied 3D environment, which requires addressing complexities of multi-modal interaction more relevant to real-world applications. We further investigate whether approaches such as self-correction and increased inference time improve information gathering efficiency. In a relatively simple task that requires identifying a single rewarding feature, we find that LLM's information gathering capability is close to optimal. However, when the model must identify a conjunction of rewarding features, performance is suboptimal. The hit in performance is due partly to the model translating task description to a policy and partly to the model's effectiveness in using its in-context memory. Performance is comparable in both text and 3D embodied environments, although imperfect visual object recognition reduces its accuracy in drawing conclusions from gathered information in the 3D embodied case. For single-feature-based rewards, we find that smaller models curiously perform better; for conjunction-based rewards, incorporating self correction into the model improves performance.
Abstract（参考訳）: 問題解決は基礎モデルの標準的な評価課題であるが、問題解決の重要な要素は、積極的に戦略的に情報を収集して仮説をテストすることである。対話型環境における基礎モデルの情報収集能力を評価するために,これまでに収集した情報を反復的に分析し,各段階における情報獲得を最大化するための探索的行動を提案することによって,隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。我々はこのフレームワークを,厳密に制御された設定を提供し,高スループットのパラメータスイープを可能にするテキストベースの環境と,実世界のアプリケーションとより関連性の高いマルチモーダルインタラクションの複雑さに対処する必要のある具体化された3D環境の両方に実装する。さらに、自己補正や推論時間の増加といったアプローチが情報収集効率を向上させるかどうかについても検討する。 1つの報酬機能を特定することを必要とする比較的単純なタスクでは、LLMの情報収集能力が最適に近いことが分かる。しかし、モデルが報酬機能の組み合わせを識別しなければならない場合、パフォーマンスは最適以下である。パフォーマンスのヒットは、部分的にはタスク記述をポリシーに変換するモデルと、部分的にはコンテキスト内メモリの使用におけるモデルの有効性に起因している。テキストと3Dエンボディ環境の両方で性能は同等であるが、不完全な視覚オブジェクト認識は、3Dエンボディ環境で収集された情報から結論を引き出す際の精度を低下させる。単一機能ベースの報酬では、小さなモデルの方が好奇心をそそられ、結合ベースの報酬では、自己修正をモデルに組み込むことで、パフォーマンスが向上する。

関連論文リスト

Meta-Learning Transformers to Improve In-Context Generalization [8.694999451321571]
インコンテキスト学習は、入力プロンプトのみに基づいて、トランスフォーマーモデルを新しいタスクに一般化することを可能にする。既存のトレーニングパラダイムは一般的に、保存にコストがかかる大規模で非構造的なデータセットに依存します。我々は、複数の、小規模、ドメイン固有のデータセットのコレクションを活用する、代替的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-07-07T14:02:22Z)
Do Retrieval-Augmented Language Models Adapt to Varying User Needs? [28.729041459278587]
本稿では,3つのユーザニーズ条件下でALMを体系的に評価する新しい評価フレームワークを提案する。ユーザインストラクションと検索された情報の性質の両方を変えることで、我々のアプローチは現実世界のアプリケーションの複雑さを捉えます。本研究は,検索システム開発におけるユーザ中心評価の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-02-27T05:39:38Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
SMamba: Sparse Mamba for Event-based Object Detection [17.141967728323714]
トランスフォーマーに基づく手法は、グローバルなモデリング能力のため、イベントベースのオブジェクト検出において顕著な性能を達成している。コストを軽減するために、窓の注意に基づくスペーサー化戦略を提案し、重要でない地域を排除している研究者もいる。本研究では,グローバルなモデリング能力を維持しつつ,計算労力を削減するために適応的なスカラー化を行うSparse Mambaを提案する。
論文参考訳（メタデータ） (2025-01-21T08:33:32Z)
Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文参考訳（メタデータ） (2024-10-20T20:07:36Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文参考訳（メタデータ） (2024-08-26T17:59:01Z)
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。 CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-31T08:42:48Z)
Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文参考訳（メタデータ） (2023-07-02T21:14:49Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Should Models Be Accurate? [14.044354912031864]
予測設定においてダイナスタイルの計画に焦点をあてる。本研究では,学習者に対して,環境モデリングの精度ではなく,学習者にとって有用性を重視した学習モデルのためのメタ学習アルゴリズムを提案する。実験の結果,本アルゴリズムは非定常性に関するドメイン固有知識を用いて構築した精度の高いモデルよりも高速な学習を可能にすることがわかった。
論文参考訳（メタデータ） (2022-05-22T04:23:54Z)
Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。本稿では, 対実例生成のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-20T15:02:53Z)
Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文参考訳（メタデータ） (2022-03-11T02:37:35Z)
Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文参考訳（メタデータ） (2022-02-01T15:00:20Z)
Exploring Strategies for Generalizable Commonsense Reasoning with Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。 2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文参考訳（メタデータ） (2021-09-07T03:13:06Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。