論文の概要: Recording First-person Experiences to Build a New Type of Foundation Model
- arxiv url: http://arxiv.org/abs/2408.02680v1
- Date: Wed, 31 Jul 2024 11:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 18:32:55.216352
- Title: Recording First-person Experiences to Build a New Type of Foundation Model
- Title(参考訳): 新しいタイプのファンデーションモデルを構築するための初対人体験の記録
- Authors: Dionis Barcari, David Gamez, Aliya Grig,
- Abstract要約: 我々は,装着者の視線や聴力,肌のコンダクタンスを計測する記録リグを開発した。
AIアルゴリズムは、このデータを対象の環境と内部状態のリッチな図として処理するために使用される。
この種のモデルには、推薦、個人支援、GANシステム、デート、採用など、多くの潜在的な応用がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have had a big impact in recent years and billions of dollars are being invested in them in the current AI boom. The more popular ones, such as Chat-GPT, are trained on large amounts of Internet data. However, it is becoming apparent that this data is likely to be exhausted soon, and technology companies are looking for new sources of data to train the next generation of foundation models. Reinforcement learning, RAG, prompt engineering and cognitive modelling are often used to fine-tune and augment the behaviour of foundation models. These techniques have been used to replicate people, such as Caryn Marjorie. These chatbots are not based on people's actual emotional and physiological responses to their environment, so they are, at best, a surface-level approximation to the characters they are imitating. To address these issues, we have developed a recording rig that captures what the wearer is seeing and hearing as well as their skin conductance (GSR), facial expression and brain state (14 channel EEG). AI algorithms are used to process this data into a rich picture of the environment and internal states of the subject. Foundation models trained on this data could replicate human behaviour much more accurately than the personality models that have been developed so far. This type of model has many potential applications, including recommendation, personal assistance, GAN systems, dating and recruitment. This paper gives some background to this work and describes the recording rig and preliminary tests of its functionality. It then suggests how a new type of foundation model could be created from the data captured by the rig and outlines some applications. Data gathering and model training are expensive, so we are currently working on the launch of a start-up that could raise funds for the next stage of the project.
- Abstract(参考訳): 近年、ファンデーションモデルは大きな影響を与えており、現在のAIブームに何十億ドルも投資されている。
Chat-GPTのような一般的なものは、大量のインターネットデータに基づいて訓練されている。
しかし、このデータはすぐに枯渇しそうで、テクノロジー企業は次世代のファンデーションモデルをトレーニングするための新しいデータソースを探している。
強化学習(Reinforcement learning)、RAG(RAG)、迅速なエンジニアリングと認知モデリングは、基礎モデルの振る舞いを微調整し拡張するためにしばしば用いられる。
これらの技法は、カリン・マージョリー(Caryn Marjorie)のような人々を再現するために使われてきた。
これらのチャットボットは、人々の環境に対する実際の感情的・生理的反応に基づいていないため、せいぜい、彼らが模倣しているキャラクターに対する表面的な近似である。
これらの問題に対処するため、私たちは、着用者が見ているもの、聴いているもの、皮膚コンダクタンス(GSR)、表情、脳状態(14チャンネル脳波)をキャプチャする記録リグを開発した。
AIアルゴリズムは、このデータを対象の環境と内部状態のリッチな図として処理するために使用される。
このデータに基づいてトレーニングされた基礎モデルは、これまで開発されたパーソナリティモデルよりもはるかに正確に人間の振る舞いを再現することができる。
この種のモデルには、推薦、個人支援、GANシステム、デート、採用など、多くの潜在的な応用がある。
本稿では,本研究の背景と,その機能に関する記録リグと予備試験について述べる。
次に、新しいタイプのファンデーションモデルが、rigによってキャプチャされたデータからどのように作成され、いくつかのアプリケーションの概要を示す。
データ収集とモデルトレーニングは高価であるため、私たちは現在、プロジェクトの次のステージに資金を調達できるスタートアップの立ち上げに取り組んでいます。
関連論文リスト
- EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.11801730860999]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。
本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。
また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文 参考訳(メタデータ) (2024-08-08T11:34:31Z) - A New Type of Foundation Model Based on Recordings of People's Emotions and Physiology [0.0]
ファースト・パーソン・ファンデーション・モデル(英語版)は、環境刺激を人の感情的および生理的状態にマッピングする。
我々は、着用者が見ているもの、聴いているもの、感情的、生理的状態をキャプチャする記録リグを開発した。
この新たなデータソースは、次世代のファンデーションモデルを構築するための新しいデータ不足に対処するのに役立ちます。
論文 参考訳(メタデータ) (2024-07-31T11:14:45Z) - SiamQuality: A ConvNet-Based Foundation Model for Imperfect Physiological Signals [20.574424407296586]
本稿では,畳み込みニューラルネットワーク(CNN)をベースとした新たな自己教師型学習課題を提案する。
入院した集中治療患者の光胸腺画像信号の大規模なデータセットを活用する。
提案手法は,データ品質のトレーニングに頑健な基礎モデルのバックボーンとして,CNNが有効であることを示す。
論文 参考訳(メタデータ) (2024-04-26T19:20:42Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。