論文の概要: Leveraging Organizational Resources to Adapt Models to New Data
Modalities
- arxiv url: http://arxiv.org/abs/2008.09983v1
- Date: Sun, 23 Aug 2020 07:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:55:01.791896
- Title: Leveraging Organizational Resources to Adapt Models to New Data
Modalities
- Title(参考訳): 組織リソースを活用した新しいデータモダリティへのモデルの適用
- Authors: Sahaana Suri, Raghuveer Chanda, Neslihan Bulut, Pradyumna Narayana,
Yemao Zeng, Peter Bailis, Sugato Basu, Girija Narlikar, Christopher Re, and
Abishek Sethi
- Abstract要約: 大規模組織のアプリケーションが進化するにつれて、それらを動かす機械学習(ML)モデルは、新しいデータモダリティに同じ予測タスクを適用する必要がある。
組織的なリソース、すなわち統計、知識ベース、そして関連するタスクを運用する既存のサービスによって、チームが共通の機能空間を構築することができるかを示します。
この組織リソースの利用が,Googleの5つ以上の分類タスクにおいて,運用規模でどのように構成されるのかを検証し,新しいモダリティのモデルを開発するために必要な時間を数ヶ月から数週間から数日に短縮する方法を実証する。
- 参考スコア(独自算出の注目度): 13.880434936862928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As applications in large organizations evolve, the machine learning (ML)
models that power them must adapt the same predictive tasks to newly arising
data modalities (e.g., a new video content launch in a social media application
requires existing text or image models to extend to video). To solve this
problem, organizations typically create ML pipelines from scratch. However,
this fails to utilize the domain expertise and data they have cultivated from
developing tasks for existing modalities. We demonstrate how organizational
resources, in the form of aggregate statistics, knowledge bases, and existing
services that operate over related tasks, enable teams to construct a common
feature space that connects new and existing data modalities. This allows teams
to apply methods for training data curation (e.g., weak supervision and label
propagation) and model training (e.g., forms of multi-modal learning) across
these different data modalities. We study how this use of organizational
resources composes at production scale in over 5 classification tasks at
Google, and demonstrate how it reduces the time needed to develop models for
new modalities from months to weeks to days.
- Abstract(参考訳): 大企業のアプリケーションが進化するにつれて、それらを支える機械学習(ml)モデルは、新たに発生するデータモダリティに同じ予測タスクを適用する必要がある(例えば、ソーシャルメディアアプリケーションで新しいビデオコンテンツがローンチされると、既存のテキストや画像モデルがビデオに拡張される必要がある)。
この問題を解決するために、組織は通常、スクラッチからMLパイプラインを作成します。
しかし、これは既存のモダリティのためにタスクを開発することで生み出したドメインの専門知識とデータを利用することができない。
組織的なリソース、すなわち統計、知識ベース、および関連するタスクを操作する既存のサービスによって、チームが新しいデータモダリティと既存のデータモダリティを接続する共通の機能空間を構築することができるかを示す。
これにより、チームはデータキュレーション(例えば、弱い監督とラベルの伝播)とモデルトレーニング(例えば、マルチモーダル学習の形式)をこれらの異なるデータモダリティにわたってトレーニングする方法を適用することができる。
この組織リソースの利用が,Googleの5つ以上の分類タスクにおいて,運用規模でどのように構成されるのかを調査し,新しいモダリティのモデルを開発するために必要な時間を数ヶ月から数週間から数日に短縮する方法を実証する。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Exploring In-Context Learning Capabilities of Foundation Models for
Generating Knowledge Graphs from Text [3.114960935006655]
本論文は,知識グラフの自動構築と完成の技術をテキストから改善することを目的としている。
この文脈では、新しいパラダイムの1つは、言語モデルがプロンプトとともにそのまま使われる、コンテキスト内学習である。
論文 参考訳(メタデータ) (2023-05-15T17:10:19Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - A Meta-Learning Approach to Population-Based Modelling of Structures [0.0]
構造力学における機械学習アプローチの大きな問題は、構造データの頻繁な欠如である。
この研究は、人口ベースの構造的健康モニタリングの分野に着想を得て、人口内で知識を伝達できるモデルを作成しようとしている。
メタラーニングアプローチを用いて訓練されたモデルは、人口構造に関する推論に関する従来の機械学習手法より優れている。
論文 参考訳(メタデータ) (2023-02-15T23:01:59Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。