論文の概要: Foundation Models for Decision Making: Problems, Methods, and
Opportunities
- arxiv url: http://arxiv.org/abs/2303.04129v1
- Date: Tue, 7 Mar 2023 18:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:07:53.295993
- Title: Foundation Models for Decision Making: Problems, Methods, and
Opportunities
- Title(参考訳): 意思決定のための基礎モデル:問題・方法・機会
- Authors: Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale
Schuurmans
- Abstract要約: 大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
- 参考スコア(独自算出の注目度): 124.79381732197649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models pretrained on diverse data at scale have demonstrated
extraordinary capabilities in a wide range of vision and language tasks. When
such models are deployed in real world environments, they inevitably interface
with other entities and agents. For example, language models are often used to
interact with human beings through dialogue, and visual perception models are
used to autonomously navigate neighborhood streets. In response to these
developments, new paradigms are emerging for training foundation models to
interact with other agents and perform long-term reasoning. These paradigms
leverage the existence of ever-larger datasets curated for multimodal,
multitask, and generalist interaction. Research at the intersection of
foundation models and decision making holds tremendous promise for creating
powerful new systems that can interact effectively across a diverse range of
applications such as dialogue, autonomous driving, healthcare, education, and
robotics. In this manuscript, we examine the scope of foundation models for
decision making, and provide conceptual tools and technical background for
understanding the problem space and exploring new research directions. We
review recent approaches that ground foundation models in practical decision
making applications through a variety of methods such as prompting, conditional
generative modeling, planning, optimal control, and reinforcement learning, and
discuss common challenges and open problems in the field.
- Abstract(参考訳): さまざまなデータを大規模にトレーニングした基礎モデルは、幅広いビジョンと言語タスクにおいて驚くべき能力を示している。
このようなモデルが実環境にデプロイされると、必然的に他のエンティティやエージェントとインターフェースする。
例えば、言語モデルは対話を通じて人間と対話するためにしばしば使われ、視覚知覚モデルは近隣の街路を自律的にナビゲートするために使用される。
これらの発展に対応するために、基礎モデルが他のエージェントと相互作用し、長期的推論を行うための新しいパラダイムが登場している。
これらのパラダイムは、マルチモーダル、マルチタスク、ジェネラリストの相互作用のために計算された、常に大きなデータセットの存在を活用する。
基礎モデルと意思決定の交点における研究は、対話、自律運転、医療、教育、ロボティクスなど、さまざまなアプリケーションで効果的に相互作用できる強力な新しいシステムを作るという大きな期待を抱いている。
本稿では,意思決定のための基礎モデルの範囲について検討し,問題空間の理解と新たな研究の方向性を探るための概念的ツールと技術的背景を提供する。
本稿では, 実践的意思決定の基盤となる基盤モデルについて, プロンプト, 条件付き生成モデル, 計画, 最適制御, 強化学習など, 様々な手法を用いて検討し, 共通課題とオープンな課題について議論する。
関連論文リスト
- Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - HighMMT: Towards Modality and Task Generalization for High-Modality
Representation Learning [121.81678875923524]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。
得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。
コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Neurosymbolic AI for Situated Language Understanding [13.249453757295083]
我々は,これらの学習課題に対する解法として,計算位置定位法が有効であると主張している。
我々のモデルは、古典的なAIの考えをニューロシンボリックインテリジェンス(英語版)の枠組みに再組み入れている。
我々は、さまざまなAI学習課題に対して、位置情報が多様なデータと複数のレベルのモデリングを提供する方法について論じる。
論文 参考訳(メタデータ) (2020-12-05T05:03:28Z) - Multi-agent Trajectory Prediction with Fuzzy Query Attention [15.12743751614964]
複数のエージェントを持つシーンの軌道予測は、交通予測、歩行者追跡、経路計画といった多くの領域において難しい問題である。
この課題に対処する一般的なアーキテクチャとして、運動の重要な帰納バイアス、すなわち慣性、相対運動、意図、相互作用をモデル化する。
論文 参考訳(メタデータ) (2020-10-29T19:12:12Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Learning to Generalize for Sequential Decision Making [19.075378799280728]
本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
論文 参考訳(メタデータ) (2020-10-05T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。