論文の概要: SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.01148v1
- Date: Sun, 30 Nov 2025 23:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.604171
- Title: SocialFusion: Addressing Social Degradation in Pre-trained Vision-Language Models
- Title(参考訳): ソーシャルフュージョン : 事前学習型視覚言語モデルにおける社会的劣化への対処
- Authors: Hamza Tahboub, Weiyan Shi, Gang Hua, Huaizu Jiang,
- Abstract要約: 事前学習された視覚言語モデル(VLM)は,複数の社会的知覚タスクを同時に統合し,学習することの難しさを示す。
凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
以上の結果から,現在のVLM事前学習戦略は一般社会能力獲得に有害である可能性が示唆された。
- 参考スコア(独自算出の注目度): 34.928133808112925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding social interactions from visual cues is a fundamental challenge for a socially competent AI. While powerful pre-trained vision-language models (VLMs) have shown remarkable general capabilities, they surprisingly struggle to unify and learn multiple social perception tasks simultaneously, often exhibiting negative transfer. We identify that this negative transfer stems from a critical issue we term "social degradation," whereby the general visual-linguistic pre-training process of VLMs impairs the visual encoder's ability to represent nuanced social information. We investigate this behavior further under two lenses: decodability through linear representation probing and compatibility through gradient conflict analysis, revealing that both play a role in the degradation, especially the former, which is significantly compromised in the VLM pre-training process. To address these issues, we propose SocialFusion, a unified framework that learns a minimal connection between a frozen visual encoder and a language model. Compared with existing VLMs, it exhibits positive transfer across all five social tasks, leveraging synergies between them to enhance overall performance and achieves comparable performance to task-specific state-of-the-art models on various benchmarks. Our findings suggest that current VLM pre-training strategies may be detrimental to acquiring general social competence and highlight the need for more socially-aware training paradigms.
- Abstract(参考訳): 視覚的な手がかりから社会的相互作用を理解することは、社会的に有能なAIにとって根本的な課題である。
強力な事前学習型視覚言語モデル(VLM)は目覚ましい汎用性を示してきたが、同時に複数の社会的知覚タスクを統一し学習するのに驚くほど苦労し、しばしば負の伝達を示す。
この負の伝達は、VLMの一般的な視覚言語事前学習プロセスが、視覚エンコーダのニュアンスな社会情報表現能力を損なう「社会的劣化」という重要な問題に起因していると確認する。
本研究は, 線形表現探索による偏極性, 勾配競合解析による整合性, 劣化, 特にVLM事前学習過程において著しく損なわれている前者において, 両者が役割を担っていることを明らかにする。
こうした問題に対処するために,凍結したビジュアルエンコーダと言語モデルとの間の最小限の接続を学習する統合フレームワークであるSocialFusionを提案する。
既存のVLMと比較すると、5つのソーシャルタスクすべてに肯定的な移行を示し、それらのシナジーを利用して全体的なパフォーマンスを高め、様々なベンチマークでタスク固有の最先端モデルに匹敵するパフォーマンスを達成する。
以上の結果から,現在のVLM事前学習戦略は,一般の社会的能力獲得に有害であり,より社会的に意識した訓練パラダイムの必要性を強調している可能性が示唆された。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - Neural Synchrony Between Socially Interacting Language Models [52.74586779814636]
大規模言語モデル(LLM)は人間の行動の強力な近似として広く受け入れられている。
人間の社会的心と有意義に比較できるかどうかについては議論の余地がある。
論文 参考訳(メタデータ) (2026-02-19T20:33:54Z) - MARO: Learning Stronger Reasoning from Social Interaction [7.77506109184819]
マルチエージェント・リワード最適化(Multi-Agent Reward Optimization、MARO)は、大規模言語モデルがより強力な推論能力を得ることを可能にする手法である。
実験の結果,MAROは社会的推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-01-18T09:10:08Z) - SVBench: Evaluation of Video Generation Models on Social Reasoning [35.06131184286366]
ビデオ生成における社会的推論のための最初のベンチマークを紹介する。
我々は,各実験の推論機構を蒸留する,完全学習不要なエージェントベースパイプラインを開発した。
われわれは,7つの最先端ビデオ生成システムを対象とした大規模な研究を行った。
論文 参考訳(メタデータ) (2025-12-25T04:44:59Z) - SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.68365456601248]
社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文 参考訳(メタデータ) (2025-05-29T17:47:36Z) - Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は視覚的質問応答とイメージキャプションに優れる。
しかし、多段階の視覚的推論では性能が劣り、モダリティの不均衡や脆さの認識がもたらされる。
本稿では,VLMがアルゴリズムによる視覚的推論を行う能力を評価するための合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition [59.57095498284501]
我々は,textbfContextual textbfSocial textbfRelationships (textbfConSoR) を社会的認知の観点から認識する新しいアプローチを提案する。
画像ごとの社会的関係を考慮した社会認識記述言語プロンプトを構築した。
印象的なことに、ConSoRは従来の手法を上回り、Person-in-Social-Context(PISC)データセットでは12.2%、Person-in-Photo-Album(PIPA)ベンチマークでは9.8%向上している。
論文 参考訳(メタデータ) (2024-06-12T16:02:28Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Social Processes: Self-Supervised Forecasting of Nonverbal Cues in
Social Conversations [22.302509912465077]
我々は、社会的人間関係の分野におけるボトムアップな自己監督的アプローチの方向への第一歩を踏み出す。
ソーシャルキュー予測のタスクを定式化し、ラベルなしの低レベル行動キューを多量に活用する。
本稿では,ニューラル・プロセス(NP)ファミリー内における社会的に認識されるシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-28T18:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。