Fugu-MT 論文翻訳(概要): Domain Generalization via Balancing Training Difficulty and Model Capability

論文の概要: Domain Generalization via Balancing Training Difficulty and Model Capability

arxiv url: http://arxiv.org/abs/2309.00844v1
Date: Sat, 2 Sep 2023 07:09:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 00:45:18.157039
Title: Domain Generalization via Balancing Training Difficulty and Model Capability
Title（参考訳）: バランストレーニングによるドメインの一般化とモデル能力
Authors: Xueying Jiang, Jiaxing Huang, Sheng Jin, Shijian Lu
Abstract要約: ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
参考スコア（独自算出の注目度）: 61.053202176230904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain generalization (DG) aims to learn domain-generalizable models from one or multiple source domains that can perform well in unseen target domains. Despite its recent progress, most existing work suffers from the misalignment between the difficulty level of training samples and the capability of contemporarily trained models, leading to over-fitting or under-fitting in the trained generalization model. We design MoDify, a Momentum Difficulty framework that tackles the misalignment by balancing the seesaw between the model's capability and the samples' difficulties along the training process. MoDify consists of two novel designs that collaborate to fight against the misalignment while learning domain-generalizable models. The first is MoDify-based Data Augmentation which exploits an RGB Shuffle technique to generate difficulty-aware training samples on the fly. The second is MoDify-based Network Optimization which dynamically schedules the training samples for balanced and smooth learning with appropriate difficulty. Without bells and whistles, a simple implementation of MoDify achieves superior performance across multiple benchmarks. In addition, MoDify can complement existing methods as a plug-in, and it is generic and can work for different visual recognition tasks.
Abstract（参考訳）: ドメイン一般化(DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされ、訓練された一般化モデルに過度に適合または過度に適合する。我々は、モデルの能力とトレーニングプロセスにおけるサンプルの困難との間のシーソーのバランスをとることで、ミスアライメントに取り組むMomentum DifficultyフレームワークであるMoDifyを設計する。修正は2つの新しいデザインから成り、ドメイン一般化可能なモデルを学びながら、不均衡と戦うために協力する。ひとつはMoDifyベースのData Augmentationで、RGB Shuffle技術を利用して、オンザフライで困難なトレーニングサンプルを生成する。 2つ目は、MoDifyベースのネットワーク最適化で、バランスとスムーズな学習のためのトレーニングサンプルを適切な困難で動的にスケジュールする。ベルとホイッスルがなければ、MoDifyのシンプルな実装は複数のベンチマークで優れたパフォーマンスを達成する。さらに、MoDifyはプラグインとして既存のメソッドを補完することができ、ジェネリックであり、異なる視覚的認識タスクで機能する。

関連論文リスト

ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-04-01T12:06:42Z)
From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。 DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
Attention Is All You Need For Mixture-of-Depths Routing [5.419910566904439]
本稿では,新しいアテンションベースのルーティング機構A-MoDを提案する。 A-MoDはトレーニング可能なパラメータを追加しないため、より効率的なトレーニングを可能にする。これにより、MoDモデルの性能が向上する。
論文参考訳（メタデータ） (2024-12-30T11:25:54Z)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳（メタデータ） (2024-11-05T04:10:59Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。 MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。 2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-06-17T06:47:03Z)
Multimodal Federated Learning with Missing Modality via Prototype Mask and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文参考訳（メタデータ） (2023-12-21T00:55:12Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。コード及び事前訓練されたジェネリストモデルは、解放される。
論文参考訳（メタデータ） (2022-06-09T17:59:59Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)
Cross-Domain Few-Shot Classification via Adversarial Task Augmentation [16.112554109446204]
少数のショット分類は、各クラスのラベル付きサンプルがほとんどなく、見えないクラスを認識することを目的とする。数ショット分類のためのメタラーニングモデルの多くは、そのようなタスクを解決するために様々なタスク共有帰納バイアス(メタ知識)を精巧に設計する。本研究は,タスク強化による帰納バイアスの堅牢性向上を目的としている。
論文参考訳（メタデータ） (2021-04-29T14:51:53Z)
Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation [43.351728923472464]
One-Shot Unsupervised Domain Adaptationは、適応を学ぶ際に、ラベルなしのターゲットサンプルをひとつだけ利用できると仮定する。従来の適応手法は、ラベル付けされていないターゲットデータの不足により失敗する傾向にある。そこで我々は,スタイル転送モジュールとタスク固有モジュールを組み合わせた新しいアドリラルスタイルマイニング手法を提案する。
論文参考訳（メタデータ） (2020-04-13T16:18:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。