論文の概要: GATS: Gather-Attend-Scatter
- arxiv url: http://arxiv.org/abs/2401.08525v1
- Date: Tue, 16 Jan 2024 17:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:48:52.751221
- Title: GATS: Gather-Attend-Scatter
- Title(参考訳): GATS: Gather-Attend-Scatter
- Authors: Konrad Zolna, Serkan Cabi, Yutian Chen, Eric Lau, Claudio Fantacci,
Jurgis Pasukonis, Jost Tobias Springenberg, Sergio Gomez Colmenarejo
- Abstract要約: Gather-Attend-Scatter (GATS) は、事前訓練された基礎モデルのシームレスな組み合わせを可能にする新しいモジュールである。
従来の微調整とは対照的に、GATSはオリジナルのコンポーネントモデルを凍結し続けることができ、重要な知識を失うリスクを避けることができる。
ゲーム,ロボット工学,マルチモーダル入力出力システムにおけるGATSの有用性と汎用性を実証する。
- 参考スコア(独自算出の注目度): 17.136986892204476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the AI community increasingly adopts large-scale models, it is crucial to
develop general and flexible tools to integrate them. We introduce
Gather-Attend-Scatter (GATS), a novel module that enables seamless combination
of pretrained foundation models, both trainable and frozen, into larger
multimodal networks. GATS empowers AI systems to process and generate
information across multiple modalities at different rates. In contrast to
traditional fine-tuning, GATS allows for the original component models to
remain frozen, avoiding the risk of them losing important knowledge acquired
during the pretraining phase. We demonstrate the utility and versatility of
GATS with a few experiments across games, robotics, and multimodal input-output
systems.
- Abstract(参考訳): AIコミュニティは大規模モデルをますます採用しているため、それらを統合するための汎用的で柔軟なツールを開発することが不可欠である。
本稿では,トレーニング可能な基盤モデルと凍結可能な基礎モデルのシームレスな組み合わせを,より大規模なマルチモーダルネットワークに実現したGather-Attend-Scatter(GATS)を紹介する。
GATSはAIシステムに対して、異なるレートで複数のモードで情報を処理し、生成する権限を与える。
従来の微調整とは対照的に、GATSはオリジナルのコンポーネントモデルを凍結し続けることができ、トレーニング前の段階で得られた重要な知識を失うリスクを避けることができる。
ゲーム,ロボット工学,マルチモーダル入力出力システムにおけるGATSの有用性と汎用性を実証する。
関連論文リスト
- Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。
我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。
12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文 参考訳(メタデータ) (2024-11-21T06:03:25Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - GSGFormer: Generative Social Graph Transformer for Multimodal Pedestrian
Trajectory Prediction [0.0]
GSGFormerは、歩行者の軌跡を予測する革新的な生成モデルである。
我々は、歩行者、セマンティックマップ、潜在的目的地間の相互作用を捉えるために、異種グラフニューラルネットワークを組み込んだ。
論文 参考訳(メタデータ) (2023-12-07T17:53:02Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。