論文の概要: A Generalist Agent
- arxiv url: http://arxiv.org/abs/2205.06175v1
- Date: Thu, 12 May 2022 16:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:25:31.311886
- Title: A Generalist Agent
- Title(参考訳): generalist (複数形 generalists)
- Authors: Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo,
Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay,
Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards,
Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar,
Nando de Freitas
- Abstract要約: Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。
同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
- 参考スコア(独自算出の注目度): 89.85319092351988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by progress in large-scale language modeling, we apply a similar
approach towards building a single generalist agent beyond the realm of text
outputs. The agent, which we refer to as Gato, works as a multi-modal,
multi-task, multi-embodiment generalist policy. The same network with the same
weights can play Atari, caption images, chat, stack blocks with a real robot
arm and much more, deciding based on its context whether to output text, joint
torques, button presses, or other tokens. In this report we describe the model
and the data, and document the current capabilities of Gato.
- Abstract(参考訳): 大規模言語モデリングの進歩に触発されて、テキスト出力の領域を超えて単一の汎用エージェントを構築するために、同様のアプローチを適用する。
エージェントはgatoと呼ばれ、マルチモーダル、マルチタスク、マルチembodiment generalistポリシーとして機能します。
同じ重みを持つネットワークは、Atari、キャプション画像、チャット、実際のロボットアームによるスタックブロックなどを再生でき、そのコンテキストに基づいてテキスト、関節トルク、ボタンを押したり、その他のトークンを出力したりすることができる。
この報告では、モデルとデータを説明し、gatoの現在の機能について文書化する。
関連論文リスト
- TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - EMOTE: An Explainable architecture for Modelling the Other Through
Empathy [26.85666453984719]
エージェントのアクション値関数をモデル化するシンプルなアーキテクチャを設計する。
我々は、他のエージェントの観察状態を変換する「イマジネーションネットワーク」を学習する。
これは、人間の解釈可能な「共感状態」を生成し、学習エージェントに提示されると、他のエージェントを模倣する振る舞いを生成する。
論文 参考訳(メタデータ) (2023-06-01T02:27:08Z) - ChatGPT is not all you need. A State of the Art Review of large
Generative AI models [0.0]
この研究は、生成AIによって影響を受ける主要なモデルを簡潔に記述し、最近出版された主要な生成モデルの分類を提供する試みである。
論文 参考訳(メタデータ) (2023-01-11T15:48:36Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。