論文の概要: PairUni: Pairwise Training for Unified Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2510.25682v1
- Date: Wed, 29 Oct 2025 16:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.806644
- Title: PairUni: Pairwise Training for Unified Multimodal Language Models
- Title(参考訳): PairUni: 統一マルチモーダル言語モデルのペアワイズトレーニング
- Authors: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang,
- Abstract要約: 統一視覚言語モデル(UVLM)は、単一のアーキテクチャ内で理解と生成の両方を実行する必要がある。
我々は、データを理解世代(UG)ペアに再編成する統合フレームワークであるPairUniを提案する。
提案手法は, 様々なUVLMのバランス改善を実現し, 高いUVLM RLベースラインを達成している。
- 参考スコア(独自算出の注目度): 50.01064884121653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Code: \href{https://github.com/Haochen-Wang409/PairUni}{github.com/Haochen-Wang409/PairUni}
- Abstract(参考訳): 統一視覚言語モデル(UVLM)は、単一のアーキテクチャ内で理解と生成の両方を実行する必要があるが、これらのタスクは異種データと監視に依存しており、強化学習(RL)中にそれらのバランスをとるのが困難である。
PairUniは、データを理解世代(UG)ペアに再編成し、それに応じて最適化する統合フレームワークである。
まず、GPT-o3を用いて単一タスクデータを拡張し、サンプルを理解するためのキャプションと、サンプルを生成するための質問応答(QA)ペアを生成し、同じインスタンスから整列ペアを生成する。
さらに、各生成サンプルに対して、意味的関連理解例を検索して、検索したペアを生成し、異なるが関連するデータポイントをリンクする。
これらのペア構造は、タスク間のセマンティックな対応を公開し、一貫性のあるポリシー学習をサポートする。
この構造を活用するために,グループ相対ポリシー最適化に基づくペア認識型Pair-GPROを提案する。
それぞれのペアに類似点を割り当て、利点を変調し、整列した例からの学習を強化し、タスクの干渉を減らす。
我々は、RLファインチューニングのために16K UG対の高品質データセットPairUGをキュレートし、強力なJanus-Pro UVLM上でPairUniを評価する。
提案手法は, 様々なUVLMのバランス改善を実現し, 高いUVLM RLベースラインを達成している。
コード: \href{https://github.com/Haochen-Wang409/PairUni}{github.com/Haochen-Wang409/PairUni}
関連論文リスト
- Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models [63.032359320629105]
In this present: Unpaired Multimodal, a modality-agnostic training paradigm, a single model then alternately processs from different modalities while sharing parameters across。
補助モダリティからの未ペアリングデータを使用することで、画像や音声などの様々な単一目標に対して、ダウンストリーム性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2025-10-09T17:32:23Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - Con$^{2}$DA: Simplifying Semi-supervised Domain Adaptation by Learning
Consistent and Contrastive Feature Representations [1.2891210250935146]
Con$2$DAは、半教師付き学習の最近の進歩を半教師付きドメイン適応問題に拡張するフレームワークである。
我々のフレームワークは、与えられた入力に対してデータ変換を行うことで、関連するサンプルのペアを生成する。
我々は、異なる損失関数を使用して、関連するデータペアのサンプルの特徴表現間の一貫性を強制します。
論文 参考訳(メタデータ) (2022-04-04T15:05:45Z) - Learning to Rank Question Answer Pairs with Bilateral Contrastive Data
Augmentation [39.22166065525888]
本稿では,バイラテラル生成(Bilateral Generation, BiG)という,新鮮で使いやすいデータ拡張戦略を提案する。
拡張データセットを用いて、質問応答ペアのランク付けを学習するための対照的な訓練目標を設計する。
TREC-QA,WikiQA,AntiQUEの3つのベンチマークデータセットによる実験結果から,本手法はランキングモデルの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-06-21T13:29:43Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。