論文の概要: Latent Variable Models in the Era of Industrial Big Data: Extension and
Beyond
- arxiv url: http://arxiv.org/abs/2208.10847v1
- Date: Tue, 23 Aug 2022 09:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 14:11:29.712768
- Title: Latent Variable Models in the Era of Industrial Big Data: Extension and
Beyond
- Title(参考訳): 産業ビッグデータ時代の潜在変数モデル:拡張とその先
- Authors: Xiangyin Kong, Xiaoyu Jiang, Bingxin Zhang, Jinsong Yuan, Zhiqiang Ge
- Abstract要約: 潜在変数モデル(LVM)とその対応するものが大きなシェアを占め、多くの産業モデリング分野で重要な役割を担います。
軽量深層LVM(LDLVM)という新しい概念を提案する。
- 参考スコア(独自算出の注目度): 7.361977372607915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A rich supply of data and innovative algorithms have made data-driven
modeling a popular technique in modern industry. Among various data-driven
methods, latent variable models (LVMs) and their counterparts account for a
major share and play a vital role in many industrial modeling areas. LVM can be
generally divided into statistical learning-based classic LVM and neural
networks-based deep LVM (DLVM). We first discuss the definitions, theories and
applications of classic LVMs in detail, which serves as both a comprehensive
tutorial and a brief application survey on classic LVMs. Then we present a
thorough introduction to current mainstream DLVMs with emphasis on their
theories and model architectures, soon afterwards provide a detailed survey on
industrial applications of DLVMs. The aforementioned two types of LVM have
obvious advantages and disadvantages. Specifically, classic LVMs have concise
principles and good interpretability, but their model capacity cannot address
complicated tasks. Neural networks-based DLVMs have sufficient model capacity
to achieve satisfactory performance in complex scenarios, but it comes at
sacrifices in model interpretability and efficiency. Aiming at combining the
virtues and mitigating the drawbacks of these two types of LVMs, as well as
exploring non-neural-network manners to build deep models, we propose a novel
concept called lightweight deep LVM (LDLVM). After proposing this new idea, the
article first elaborates the motivation and connotation of LDLVM, then provides
two novel LDLVMs, along with thorough descriptions on their principles,
architectures and merits. Finally, outlooks and opportunities are discussed,
including important open questions and possible research directions.
- Abstract(参考訳): データと革新的なアルゴリズムの豊富な供給により、データ駆動モデリングは現代の業界で一般的なテクニックとなった。
様々なデータ駆動手法の中で、潜在変数モデル(LVM)とその対応するものが大きなシェアを占め、多くの産業モデリング分野で重要な役割を果たす。
LVMは一般に、統計的学習に基づく古典的なLVMと、ニューラルネットワークに基づくディープLVM(DLVM)に分けられる。
まず,古典的LVMの定義,理論,応用について詳しく論じる。
そして、その理論とモデルアーキテクチャを重視した、現在の主流のDLVMについて徹底的な紹介を行い、その後、DLVMの産業的応用に関する詳細な調査を行う。
前述の2種類のlvmには明らかな利点と欠点がある。
具体的には、古典的なlvmには簡潔な原則と優れた解釈性があるが、モデルのキャパシティは複雑なタスクに対処できない。
ニューラルネットワークベースのDLVMは、複雑なシナリオで十分なパフォーマンスを達成するのに十分なモデル能力を持っているが、モデルの解釈可能性と効率の犠牲になる。
これらの2種類のLVMの長所と短所を結合し、深層モデルを構築するための非神経ネットワークの方法を探究することを目的として、軽量深層LVM(LDLVM)と呼ばれる新しい概念を提案する。
この新しいアイデアを提案した後、この記事はまずLDLVMのモチベーションと意味を詳述し、それから2つの新しいDLVMと、その原則、アーキテクチャ、メリットに関する詳細な説明を提供する。
最後に、重要なオープン質問や研究の方向性など、見通しや機会について論じる。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models [42.182009352159]
We present a new efficient LLVM, Mamba based traversal of rationales (Meteor)
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
論文 参考訳(メタデータ) (2024-05-24T14:04:03Z) - Local Binary and Multiclass SVMs Trained on a Quantum Annealer [0.8399688944263844]
近年,動作量子アンニールの出現に伴い,量子トレーニングと古典的実行を特徴とするハイブリッドSVMモデルが導入されている。
これらのモデルは、古典的なモデルに匹敵する性能を示した。
しかし、現在の量子アニールの接続が制限されているため、トレーニングセットサイズに制限がある。
論文 参考訳(メタデータ) (2024-03-13T14:37:00Z) - MoAI: Mixture of All Intelligence for Large Language and Vision Models [42.182009352159]
Mixture of All Intelligence (MoAI)は、命令調整型大規模言語および視覚モデル(LLVM)である。
MoAIは外部セグメンテーション、検出、SGG、OCRモデルの出力から得られる補助的な視覚情報を使用する。
MoAIは、多数のゼロショットビジョン言語(VL)タスクにおいて、オープンソースとクローズドソースのLLVMの両方を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-12T10:44:13Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。