論文の概要: Foundation Models for Decision Making: Problems, Methods, and
Opportunities
- arxiv url: http://arxiv.org/abs/2303.04129v1
- Date: Tue, 7 Mar 2023 18:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:07:53.295993
- Title: Foundation Models for Decision Making: Problems, Methods, and
Opportunities
- Title(参考訳): 意思決定のための基礎モデル:問題・方法・機会
- Authors: Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale
Schuurmans
- Abstract要約: 大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
- 参考スコア(独自算出の注目度): 124.79381732197649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models pretrained on diverse data at scale have demonstrated
extraordinary capabilities in a wide range of vision and language tasks. When
such models are deployed in real world environments, they inevitably interface
with other entities and agents. For example, language models are often used to
interact with human beings through dialogue, and visual perception models are
used to autonomously navigate neighborhood streets. In response to these
developments, new paradigms are emerging for training foundation models to
interact with other agents and perform long-term reasoning. These paradigms
leverage the existence of ever-larger datasets curated for multimodal,
multitask, and generalist interaction. Research at the intersection of
foundation models and decision making holds tremendous promise for creating
powerful new systems that can interact effectively across a diverse range of
applications such as dialogue, autonomous driving, healthcare, education, and
robotics. In this manuscript, we examine the scope of foundation models for
decision making, and provide conceptual tools and technical background for
understanding the problem space and exploring new research directions. We
review recent approaches that ground foundation models in practical decision
making applications through a variety of methods such as prompting, conditional
generative modeling, planning, optimal control, and reinforcement learning, and
discuss common challenges and open problems in the field.
- Abstract(参考訳): さまざまなデータを大規模にトレーニングした基礎モデルは、幅広いビジョンと言語タスクにおいて驚くべき能力を示している。
このようなモデルが実環境にデプロイされると、必然的に他のエンティティやエージェントとインターフェースする。
例えば、言語モデルは対話を通じて人間と対話するためにしばしば使われ、視覚知覚モデルは近隣の街路を自律的にナビゲートするために使用される。
これらの発展に対応するために、基礎モデルが他のエージェントと相互作用し、長期的推論を行うための新しいパラダイムが登場している。
これらのパラダイムは、マルチモーダル、マルチタスク、ジェネラリストの相互作用のために計算された、常に大きなデータセットの存在を活用する。
基礎モデルと意思決定の交点における研究は、対話、自律運転、医療、教育、ロボティクスなど、さまざまなアプリケーションで効果的に相互作用できる強力な新しいシステムを作るという大きな期待を抱いている。
本稿では,意思決定のための基礎モデルの範囲について検討し,問題空間の理解と新たな研究の方向性を探るための概念的ツールと技術的背景を提供する。
本稿では, 実践的意思決定の基盤となる基盤モデルについて, プロンプト, 条件付き生成モデル, 計画, 最適制御, 強化学習など, 様々な手法を用いて検討し, 共通課題とオープンな課題について議論する。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Neurosymbolic AI for Situated Language Understanding [13.249453757295083]
我々は,これらの学習課題に対する解法として,計算位置定位法が有効であると主張している。
我々のモデルは、古典的なAIの考えをニューロシンボリックインテリジェンス(英語版)の枠組みに再組み入れている。
我々は、さまざまなAI学習課題に対して、位置情報が多様なデータと複数のレベルのモデリングを提供する方法について論じる。
論文 参考訳(メタデータ) (2020-12-05T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。