論文の概要: Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration
- arxiv url: http://arxiv.org/abs/2605.00370v1
- Date: Fri, 01 May 2026 03:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.834428
- Title: Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration
- Title(参考訳): グループ認知学習: 貧弱な2段階のエージェントによるコラボレーションを通じて、すべてをより良くする
- Authors: Chunlei Meng, Pengbin Feng, Rong Fu, Hoi Leong Lee, Xiaojing Du, Zhaolu Kang, Zeyu Zhang, Weilin Zhou, Chun Ouyang, Zhongxue Gan,
- Abstract要約: グループ認知学習(グループ認知学習、Group Cognition Learning、GCL)は、モダリティ固有の符号化の後に2段階のプロトコルを適用する、管理された協調パラダイムである。
GCLはモダリティの優位性と結合を緩和し、回帰ベンチマークと分類ベンチマークの両方で最先端の結果を確立する。
- 参考スコア(独自算出の注目度): 13.299987551113809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Centralized multimodal learning commonly compresses language, acoustic, and visual signals into a single fused representation for prediction. While effective, this paradigm suffers from two limitations: modality dominance, where optimization gravitates towards the path of least resistance, ignoring weaker but informative modalities, and spurious modality coupling, where models overfit to incidental cross-modal correlations. To address these, we propose Group Cognition Learning (GCL), a governed collaboration paradigm that applies a two-stage protocol after modality-specific encoding. In Stage 1 (Selective Interaction), a Routing Agent proposes directed interaction routes, and an Auditing Agent assigns sample-wise gates to emphasize exchanges that yield positive marginal predictive gain while suppressing redundant coupling. In Stage 2 (Consensus Formation), a Public-Factor Agent maintains an explicit shared factor, and an Aggregation Agent produces the final prediction through contribution-aware weighting while keeping each modality representation as a specialization channel. Extensive experiments on CMU-MOSI, CMU-MOSEI, and MIntRec demonstrate that GCL mitigates dominance and coupling, establishing state-of-the-art results across both regression and classification benchmarks. Analysis experiments further demonstrate the effectiveness of the design.
- Abstract(参考訳): 集中型マルチモーダル学習は、言語、音響、視覚的な信号を単一の融合表現に圧縮して予測する。
このパラダイムは効果はあるものの、モダリティ優位性(Modality dominance)という2つの制限に悩まされており、最適化は最小抵抗の経路へ向けられ、弱いが情報的なモダリティを無視され、そして急激なモダリティカップリング(英語版)は、モデルが偶発的なモダリティ間の相関に過度に適合する。
そこで本稿では,モダリティ固有の符号化後の2段階プロトコルを適用した協調パラダイムであるグループ認知学習(GCL)を提案する。
ステージ1(選択的相互作用)では、ルーティングエージェントが指示された相互作用経路を提案し、監査エージェントはサンプルワイズゲートを割り当て、冗長結合を抑えながら正の限界予測ゲインをもたらす交換を強調する。
第2段階(合意形成)では、公開因子エージェントは明示的な共有因子を保持し、集約エージェントは、各モダリティ表現を特殊化チャネルとして保持しつつ、貢献認識重み付けを通じて最終的な予測を生成する。
CMU-MOSI、CMU-MOSEI、MIntRecの大規模な実験は、GCLが支配と結合を緩和し、回帰と分類のベンチマークで最先端の結果を確立することを実証している。
分析実験は設計の有効性をさらに実証する。
関連論文リスト
- AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Group Contrastive Learning for Weakly Paired Multimodal Data [34.76498775412033]
GROOVEは、高濃度摂動データに対する半教師付きマルチモーダル表現学習手法である。
GroupCLIPは、ペア化されたクロスモーダルデータのためのCLIPと、一様教師付きコントラスト学習のためのSupConのギャップを埋める、新しいグループレベルのコントラスト損失である。
論文 参考訳(メタデータ) (2026-02-03T21:11:06Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization [32.17940023097263]
マルチターンツール統合推論により、大規模言語モデル(LLM)は反復情報検索によって複雑なタスクを解くことができる。
探索強化推論のための現在の強化学習(RL)フレームワークは、少ない結果レベルの報酬に依存している。
この問題に対処するために,ターンレベル段階対応政策最適化(TSPO)を提案する。
論文 参考訳(メタデータ) (2026-01-30T09:58:45Z) - DuoCLR: Dual-Surrogate Contrastive Learning for Skeleton-based Human Action Segmentation [6.660458629649825]
事前学習による人間の行動セグメンテーションを強化するために, 対照的な表現学習フレームワークを提案する。
提案するフレームワークは,マルチスケール表現とクロスシーケンスのバリエーションの併用に重点を置いている。
実験では、DuoCLRはトリミングされたスケルトンデータセットで事前トレーニングされ、トリミングされていないデータセットで評価される。
論文 参考訳(メタデータ) (2025-09-05T23:46:51Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。