論文の概要: Learning Slice-Aware Representations with Mixture of Attentions
- arxiv url: http://arxiv.org/abs/2106.02363v1
- Date: Fri, 4 Jun 2021 09:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 00:16:26.355403
- Title: Learning Slice-Aware Representations with Mixture of Attentions
- Title(参考訳): 注意の混合によるスライス認識表現の学習
- Authors: Cheng Wang, Sungjin Lee, Sunghyun Park, Han Li, Young-Bum Kim, Ruhi
Sarikaya
- Abstract要約: この研究は、最近のスライスベース学習(SBL)トポチェン2019スライスを拡張し、注意(MoA)を混合してスライス対応の注意的二重表現を学習する。
2つの自然言語理解タスクを持つ監視されたスライスに対して,MoAアプローチがベースライン手法と元のSBLアプローチより優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 38.74444452556773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world machine learning systems are achieving remarkable performance in
terms of coarse-grained metrics like overall accuracy and F-1 score. However,
model improvement and development often require fine-grained modeling on
individual data subsets or slices, for instance, the data slices where the
models have unsatisfactory results. In practice, it gives tangible values for
developing such models that can pay extra attention to critical or interested
slices while retaining the original overall performance. This work extends the
recent slice-based learning (SBL)~\cite{chen2019slice} with a mixture of
attentions (MoA) to learn slice-aware dual attentive representations. We
empirically show that the MoA approach outperforms the baseline method as well
as the original SBL approach on monitored slices with two natural language
understanding (NLU) tasks.
- Abstract(参考訳): 実世界の機械学習システムは、全体的な精度やF-1スコアといった粗い粒度の指標で、目覚ましいパフォーマンスを実現している。
しかし、モデルの改善と開発は、個々のデータサブセットやスライスに関するきめ細かいモデリングを必要とすることが多い。
実際には、オリジナルの全体的なパフォーマンスを維持しながら、重要なスライスや関心のあるスライスに余分な注意を払うことができるようなモデルを開発するための具体的な価値を提供する。
この研究は、最近のslice-based learning (sbl)~\cite{chen2019slice} を拡張し、slice-aware dual attentive representationsを学習するための注意の混合(moa)である。
2つの自然言語理解(NLU)タスクを持つ監視されたスライスに対して,MoAアプローチがベースライン手法と元のSBLアプローチよりも優れていることを実証的に示す。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。