論文の概要: VIBE: Can a VLM Read the Room?
- arxiv url: http://arxiv.org/abs/2506.11162v1
- Date: Wed, 11 Jun 2025 19:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.524326
- Title: VIBE: Can a VLM Read the Room?
- Title(参考訳): VIBE: VLMは部屋を読むことができるか?
- Authors: Tania Chakraborty, Eylon Caplan, Dan Goldwasser,
- Abstract要約: 視覚言語モデル(VLM)はこのギャップを考慮に入れることができるが、そのような社会的手がかりに対して正しい推論を行う能力はほとんど注目されていない。
VLMのための新しいタスクとして,ビジュアルソーシャル・プラグマティック・推論を提案する。
本稿では,この課題に対するVLMの能力をテストするための高品質なデータセットを構築し,その上でのVLMの性能をベンチマークする。
- 参考スコア(独自算出の注目度): 17.722429998521168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human social behavior such as recognizing emotions and the social dynamics causing them is an important and challenging problem. While LLMs have made remarkable advances, they are limited to the textual domain and cannot account for the major role that non-verbal cues play in understanding social situations. Vision Language Models (VLMs) can potentially account for this gap, however their ability to make correct inferences over such social cues has received little attention. In this paper, we explore the capabilities of VLMs at social reasoning. We identify a previously overlooked limitation in VLMs: the Visual Social-Pragmatic Inference gap. To target this gap, we propose a new task for VLMs: Visual Social-Pragmatic Inference. We construct a high quality dataset to test the abilities of a VLM for this task and benchmark the performance of several VLMs on it.
- Abstract(参考訳): 感情の認識やそれらを引き起こす社会的ダイナミクスといった人間の社会的行動を理解することは、重要かつ困難な問題である。
LLMは顕著な進歩を遂げてきたが、それらはテキスト領域に限られており、非言語的手がかりが社会的状況を理解する上で果たす主要な役割を説明できない。
視覚言語モデル(VLM)はこのギャップを考慮に入れることができるが、そのような社会的手がかりに対して正しい推論を行う能力はほとんど注目されていない。
本稿では,社会的推論におけるVLMの能力について考察する。
これまでに見過ごされたVLMの制限として,視覚社会的・実用的推論のギャップがあげられる。
このギャップを解消するために、我々はVLMの新しいタスクであるビジュアル・ソーシャル・プラグマティック・推論を提案する。
本稿では,この課題に対するVLMの能力をテストするための高品質なデータセットを構築し,その上でのVLMの性能をベンチマークする。
関連論文リスト
- Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning [23.7096338281261]
本稿では,視覚的シーンがテキストのみの記述として表現される場合,視覚言語モデルが驚くほど強い意思決定性能が得られることを示す。
視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
論文 参考訳(メタデータ) (2025-03-21T09:25:23Z) - Engagement-Driven Content Generation with Large Language Models [8.049552839071918]
大規模言語モデル(LLM)は1対1の相互作用において重要な説得力を示す。
相互接続されたユーザーと複雑な意見のダイナミクスがユニークな課題を引き起こすソーシャルネットワークにおける彼らの影響力は、いまだ過小評価されている。
本稿では,emphCan LLMがソーシャルネットワーク上でユーザエンゲージメントを最大化する有意義なコンテンツを生成するかという研究課題に対処する。
論文 参考訳(メタデータ) (2024-11-20T10:40:08Z) - EgoSocialArena: Benchmarking the Social Intelligence of Large Language Models from a First-person Perspective [22.30892836263764]
社会知能は認知知能、状況知能、行動知能の3つの柱の上に構築されている。
EgoSocialArenaは、個人の視点から、大規模言語モデルの社会的インテリジェンスを体系的に評価することを目的としている。
論文 参考訳(メタデータ) (2024-10-08T16:55:51Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Academically intelligent LLMs are not necessarily socially intelligent [56.452845189961444]
大規模言語モデル(LLM)の学術的インテリジェンス(英語版)は近年顕著な進歩を遂げているが、その社会的インテリジェンスのパフォーマンスは未だ不明である。
人間の社会知能フレームワークの確立に触発されて,現実の社会的シナリオに基づいた標準化された社会知能テストを開発した。
論文 参考訳(メタデータ) (2024-03-11T10:35:53Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。