Fugu-MT 論文翻訳(概要): BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs

論文の概要: BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs

arxiv url: http://arxiv.org/abs/2604.02045v1
Date: Thu, 02 Apr 2026 13:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.828508
Title: BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs
Title（参考訳）: BidirLM:Causal LLMの適応と構成によるテキストからOmnimodal Bidirectional Encodersへ
Authors: Nicolas Boizard, Théo Deschamps-Berger, Hippolyte Gisserot-Boukhlef, Céline Hudelot, Pierre Colombo,
Abstract要約: BidirLMは5つのエンコーダのファミリーであり、テキスト、ビジョン、音声表現のベンチマークにおいて、代替品よりも優れている。我々は、適応を成功させる重要な要因を特定し、しばしば省略される事前マスキングフェーズの役割を強調した。エンコーダを特殊な因果モデルにマージし、モダリティとドメイン固有の機能をシームレスに転送することで拡張します。
参考スコア（独自算出の注目度）: 11.874112583811593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transforming causal generative language models into bidirectional encoders offers a powerful alternative to BERT-style architectures. However, current approaches remain limited: they lack consensus on optimal training objectives, suffer from catastrophic forgetting at scale, and fail to flexibly integrate the vast ecosystem of specialized generative models. In this work, through systematic ablations on the Gemma3 and Qwen3 families, we identify the key factors driving successful adaptation, highlighting the critical role of an often-omitted prior masking phase. To scale this process without original pre-training data, we introduce a dual strategy combining linear weight merging with a lightweight multi-domain data mixture that mitigates catastrophic forgetting. Finally, we augment our encoders by merging them with specialized causal models, seamlessly transferring modality- and domain-specific capabilities. This open-source recipe, designed for any causal decoder LLM, yields BidirLM, a family of five encoders that outperform alternatives on text, vision, and audio representation benchmarks.
Abstract（参考訳）: 因果生成言語モデルを双方向エンコーダに変換することは、BERTスタイルアーキテクチャの強力な代替手段となる。しかし、現在のアプローチは限定的であり、最適な訓練目標に対するコンセンサスが欠如し、大規模で破滅的な忘れ込みに悩まされ、特殊生成モデルの広大なエコシステムを柔軟に統合することができない。本研究は,Gemma3ファミリーとQwen3ファミリーの系統的な改善を通じて,適応を成功させる鍵となる要因を特定し,しばしば省略される前マスキングフェーズの重要な役割を明らかにする。従来の事前学習データを使わずにこのプロセスをスケールするために,線形重み付けと,破滅的忘れを緩和する軽量なマルチドメインデータ混合を組み合わせた二重戦略を導入する。最後に、エンコーダを特殊な因果モデルにマージし、モダリティとドメイン固有の機能をシームレスに転送することで拡張します。このオープンソースレシピは、任意の因果デコーダ LLM 向けに設計され、5つのエンコーダのファミリーである BidirLM を生成する。

関連論文リスト

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文参考訳（メタデータ） (2026-03-13T08:55:27Z)
Hephaestus: Mixture Generative Modeling with Energy Guidance for Large-scale QoS Degradation [44.97875113025023]
本稿では,QoSD(Quality of Service Degradation)問題について考察する。非線形エッジウェイト関数の下では、RefineD問題に直接対処する先行モデルは存在しない。この研究は、潜在空間における実現可能な解を合成する自己強化フレームワークであるPIMMAを提案する。
論文参考訳（メタデータ） (2025-10-19T22:48:35Z)
MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。 Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-30T06:30:48Z)
Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文参考訳（メタデータ） (2025-04-08T17:13:41Z)
Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文参考訳（メタデータ） (2025-03-28T07:23:07Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。 LLMの能力をフル活用するための新しいフレームワークを提案する。さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文参考訳（メタデータ） (2024-06-17T17:59:43Z)
Large-scale Transfer Learning for Low-resource Spoken Language Understanding [31.013231069185387]
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
論文参考訳（メタデータ） (2020-08-13T03:43:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。