論文の概要: Mixture of Raytraced Experts
- arxiv url: http://arxiv.org/abs/2507.12419v1
- Date: Wed, 16 Jul 2025 17:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.485454
- Title: Mixture of Raytraced Experts
- Title(参考訳): 放射線専門家の混ざり合い
- Authors: Andrea Perin, Giacomo Lagomarsini, Claudio Gallicchio, Giuseppe Nuti,
- Abstract要約: 本稿では,エキスパートのシーケンスを動的に選択可能な,積み重ねられたMixture of Expertsアーキテクチャを提案する。
我々は、候補とする専門家の集合から反復的にサンプリングすることでモデルをトレーニングし、リカレントニューラルネットワークのトレーニング方法に似たシーケンスを広げる。
予備実験では、10%から40%のトレーニングエポックを、同等/高い精度で減少させる。
- 参考スコア(独自算出の注目度): 4.059745493584863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a Mixture of Raytraced Experts, a stacked Mixture of Experts (MoE) architecture which can dynamically select sequences of experts, producing computational graphs of variable width and depth. Existing MoE architectures generally require a fixed amount of computation for a given sample. Our approach, in contrast, yields predictions with increasing accuracy as the computation cycles through the experts' sequence. We train our model by iteratively sampling from a set of candidate experts, unfolding the sequence akin to how Recurrent Neural Networks are trained. Our method does not require load-balancing mechanisms, and preliminary experiments show a reduction in training epochs of 10\% to 40\% with a comparable/higher accuracy. These results point to new research directions in the field of MoEs, allowing the design of potentially faster and more expressive models. The code is available at https://github.com/nutig/RayTracing
- Abstract(参考訳): このアーキテクチャでは,専門家の列を動的に選択し,幅と深さの計算グラフを生成することができる。
既存のMoEアーキテクチャは一般に、与えられたサンプルに対して一定の量の計算を必要とする。
対照的に、我々の手法は、専門家のシーケンスを通した計算サイクルとして、精度を上げて予測する。
我々は、候補とする専門家の集合から反復的にサンプリングすることでモデルをトレーニングし、リカレントニューラルネットワークのトレーニング方法に似たシーケンスを広げる。
本手法では負荷分散機構を必要とせず,予備実験により10\%から40\%のトレーニングエポックを同等/高精度で低減することを示した。
これらの結果は、MoEsの分野での新しい研究方向を示し、潜在的に高速でより表現力のあるモデルの設計を可能にする。
コードはhttps://github.com/nutig/RayTracingで入手できる。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Iterative Sizing Field Prediction for Adaptive Mesh Generation From Expert Demonstrations [49.173541207550485]
Adaptive Meshing By Expert Reconstruction (AMBER) は模倣学習問題である。
AMBERは、グラフニューラルネットワークとオンラインデータ取得スキームを組み合わせて、専門家メッシュの投影されたサイズフィールドを予測する。
我々は、人間の専門家が提供した2Dメッシュと3Dメッシュ上でAMBERを実験的に検証し、提供されたデモと密に一致し、シングルステップのCNNベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-20T10:01:22Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - AMEND: A Mixture of Experts Framework for Long-tailed Trajectory Prediction [6.724750970258851]
軌道予測のためのモジュラーモデル非依存フレームワークを提案する。
各専門家は、データの特定の部分に関して、特別なスキルで訓練される。
予測のために,相対的信頼スコアを生成することで,最高の専門家を選択するルータネットワークを利用する。
論文 参考訳(メタデータ) (2024-02-13T02:43:41Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Mixtures of Gaussian process experts based on kernel stick-breaking
processes [0.6396288020763143]
本稿では,カーネルスティックブレーキングプロセスに基づくガウスプロセスエキスパートの混合モデルを提案する。
我々のモデルは直感的な魅力を維持しつつ、既存のモデルの性能を改善している。
モデル挙動と予測性能の改善は、6つのデータセットを用いた実験で実証された。
論文 参考訳(メタデータ) (2023-04-26T21:23:01Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z) - Fast Deep Mixtures of Gaussian Process Experts [0.6554326244334868]
教師付き学習コンテキストにおけるフレキシブルなモデリングには,専門家の混在が不可欠である。
本稿では、ディープニューラルネットワーク(DNN)を用いて、スパースGPから専門家を選択するためのゲーティングネットワークの設計を提案する。
CCR (Cluster-Classify-Regress) と呼ばれる高速なワンパスアルゴリズムを用いて、最大後部推定器(MAP)を極端に高速に近似する。
論文 参考訳(メタデータ) (2020-06-11T18:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。