論文の概要: SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.01148v1
- Date: Sun, 30 Nov 2025 23:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.604171
- Title: SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models
- Title(参考訳): ソーシャルフュージョン : 事前学習型視覚言語モデルにおける社会的劣化への対処
- Authors: Hamza Tahboub, Weiyan Shi, Gang Hua, Huaizu Jiang,
- Abstract要約: 事前学習された視覚言語モデル(VLM)は,複数の社会的知覚タスクを同時に統合し,学習することの難しさを示す。
凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
以上の結果から,現在のVLM事前学習戦略は一般社会能力獲得に有害である可能性が示唆された。
- 参考スコア(独自算出の注目度): 34.928133808112925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding social interactions from visual cues is a fundamental challenge for a socially competent AI. While powerful pre-trained vision-language models (VLMs) have shown remarkable general capabilities, they surprisingly struggle to unify and learn multiple social perception tasks simultaneously, often exhibiting negative transfer. We identify that this negative transfer stems from a critical issue we term "social degradation," whereby the general visual-linguistic pre-training process of VLMs impairs the visual encoder's ability to represent nuanced social information. We investigate this behavior further under two lenses: decodability through linear representation probing and compatibility through gradient conflict analysis, revealing that both play a role in the degradation, especially the former, which is significantly compromised in the VLM pre-training process. To address these issues, we propose SocialFusion, a unified framework that learns a minimal connection between a frozen visual encoder and a language model. Compared with existing VLMs, it exhibits positive transfer across all five social tasks, leveraging synergies between them to enhance overall performance and achieves comparable performance to task-specific state-of-the-art models on various benchmarks. Our findings suggest that current VLM pre-training strategies may be detrimental to acquiring general social competence and highlight the need for more socially-aware training paradigms.
- Abstract(参考訳): 視覚的な手がかりから社会的相互作用を理解することは、社会的に有能なAIにとって根本的な課題である。
強力な事前学習型視覚言語モデル(VLM)は目覚ましい汎用性を示してきたが、同時に複数の社会的知覚タスクを統一し学習するのに驚くほど苦労し、しばしば負の伝達を示す。
この負の伝達は、VLMの一般的な視覚言語事前学習プロセスが、視覚エンコーダのニュアンスな社会情報表現能力を損なう「社会的劣化」という重要な問題に起因していると確認する。
本研究は, 線形表現探索による偏極性, 勾配競合解析による整合性, 劣化, 特にVLM事前学習過程において著しく損なわれている前者において, 両者が役割を担っていることを明らかにする。
こうした問題に対処するために,凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
既存のVLMと比較すると、5つのソーシャルタスクすべてに肯定的な移行を示し、それらのシナジーを利用して全体的なパフォーマンスを高め、様々なベンチマークでタスク固有の最先端モデルに匹敵するパフォーマンスを達成する。
以上の結果から,現在のVLM事前学習戦略は,一般の社会的能力獲得に有害であり,より社会的に意識した訓練パラダイムの必要性を強調している可能性が示唆された。
関連論文リスト
- SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文 参考訳(メタデータ) (2025-05-29T17:47:36Z) - Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は視覚的質問応答とイメージキャプションに優れる。
しかし、多段階の視覚的推論では性能が劣り、モダリティの不均衡や脆さの認識がもたらされる。
本稿では,VLMがアルゴリズムによる視覚的推論を行う能力を評価するための合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。