論文の概要: GRR-CoCa: Leveraging LLM Mechanisms in Multimodal Model Architectures
- arxiv url: http://arxiv.org/abs/2507.18009v1
- Date: Thu, 24 Jul 2025 00:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.73056
- Title: GRR-CoCa: Leveraging LLM Mechanisms in Multimodal Model Architectures
- Title(参考訳): GRR-CoCa:マルチモーダルモデルアーキテクチャにおけるLCM機構の活用
- Authors: Jake R. Patock, Nicole Catherine Lewis, Kevin McCoy, Christina Gomez, Canling Chen, Lorenzo Luzi,
- Abstract要約: 改良型SOTA Contrastive Captioner(CoCa)モデルであるGRR-CoCaを提案する。
GRR-CoCaはガウス誤差ゲート線形単位、ルート平均二乗正規化、テキストデコーダと視覚変換器(ViT)エンコーダに回転位置埋め込みを組み込む。
GRR-CoCaのアーキテクチャ変更により、視覚言語ドメイン間での性能と一般化が向上することを示す。
- 参考スコア(独自算出の注目度): 1.0476975360455762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art (SOTA) image and text generation models are multimodal models that have many similarities to large language models (LLMs). Despite achieving strong performances, leading foundational multimodal model architectures frequently lag behind the architectural sophistication of contemporary LLMs. We propose GRR-CoCa, an improved SOTA Contrastive Captioner (CoCa) model that incorporates Gaussian error gated linear units, root mean squared normalization, and rotary positional embedding into the textual decoders and the vision transformer (ViT) encoder. Each architectural modification has been shown to improve model performance in LLMs, but has yet to be adopted in CoCa. We benchmarked GRR-CoCa against Baseline CoCa, a model with the same modified textual decoders but with CoCa's original ViT encoder. We used standard pretraining and fine-tuning workflows to benchmark the models on contrastive and generative tasks. Our GRR-CoCa significantly outperformed Baseline CoCa on the pretraining dataset and three diverse fine-tuning datasets. Pretraining improvements were 27.25% in contrastive loss, 3.71% in perplexity, and 7.15% in CoCa loss. The average fine-tuning improvements were 13.66% in contrastive loss, 5.18% in perplexity, and 5.55% in CoCa loss. We show that GRR-CoCa's modified architecture improves performance and generalization across vision-language domains.
- Abstract(参考訳): State-of-the-art (SOTA) 画像およびテキスト生成モデルは、大規模言語モデル (LLM) と多くの類似点を持つマルチモーダルモデルである。
性能は高いが、先導的なマルチモーダルモデルアーキテクチャは、現代のLLMのアーキテクチャの洗練に遅れをきたすことが多い。
我々は,ガウス誤差ゲート線形単位,ルート平均二乗正規化,テキストデコーダおよび視覚変換器(ViT)エンコーダへの回転位置埋め込みを組み込んだ改良型SOTAコントラストキャプタ(CoCa)モデルであるGRR-CoCaを提案する。
各アーキテクチャの変更はLLMのモデル性能を改善することが示されているが、CoCaではまだ採用されていない。
私たちは、同じ修正テキストデコーダとCoCaのオリジナルのViTエンコーダを備えたモデルであるBaseline CoCaに対して、GRR-CoCaをベンチマークした。
我々は、標準的な事前学習と微調整のワークフローを使用して、対照的で生成的なタスクでモデルをベンチマークしました。
GRR-CoCaは、事前トレーニングデータセットと3つの多様な微調整データセットにおいて、Baseline CoCaを著しく上回った。
事前訓練では27.25%のコントラスト損失、3.71%のパープレキシティ、7.15%のCoCa損失があった。
平均的な微調整改善は13.66%の対照的な損失、5.18%の難易度、5.55%のCoCa損失であった。
GRR-CoCaのアーキテクチャ変更により、視覚言語ドメイン間での性能と一般化が向上することを示す。
関連論文リスト
- Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Scaling Sparse and Dense Retrieval in Decoder-Only LLMs [20.173669986209024]
大規模言語モデル(LLM)のスケーリングは,検索モデルの性能向上に大きな可能性を示している。
従来の研究は、比較損失(CL)を訓練した高密度な検索に重点を置いてきた。
スパース検索モデルは、インドメイン(MSMARCO, TREC DL)とアウト・オブ・ドメイン(BEIR)ベンチマークの両方において、密集検索を一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-21T15:28:26Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - Rethinking Depthwise Separable Convolutions: How Intra-Kernel
Correlations Lead to Improved MobileNets [6.09170287691728]
CNNのための高効率なビルディングブロックとして,ブループリント分離型畳み込み(BSConv)を導入する。
それらは、訓練されたモデルからカーネル特性の定量的解析によって動機付けられている。
我々のアプローチは、深く分離可能な畳み込みの適用のために、完全な理論的導出、解釈、正当化を提供する。
論文 参考訳(メタデータ) (2020-03-30T15:23:27Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。