論文の概要: Aligning Video Models with Human Social Judgments via Behavior-Guided Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.01502v1
- Date: Wed, 01 Oct 2025 22:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.894754
- Title: Aligning Video Models with Human Social Judgments via Behavior-Guided Fine-Tuning
- Title(参考訳): 行動誘導ファインチューニングによる人間の社会的判断による映像モデルの調整
- Authors: Kathy Garcia, Leyla Isik,
- Abstract要約: 現代ビデオと言語モデルが社会的ビデオにおいて人間に知覚される類似性を捉えているかどうかを考察する。
ソーシャルインタラクションの3秒ビデオクリップ250本に対して、49,000件以上の奇抜な1対1類似性判定のベンチマークを新たに導入した。
我々は、これらの人間の判断に基づいてTimeSformerビデオモデルに、新しいハイブリッドトリプルトRSA目標を付与する。
- 参考スコア(独自算出の注目度): 2.2713084727838115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans intuitively perceive complex social signals in visual scenes, yet it remains unclear whether state-of-the-art AI models encode the same similarity structure. We study (Q1) whether modern video and language models capture human-perceived similarity in social videos, and (Q2) how to instill this structure into models using human behavioral data. To address this, we introduce a new benchmark of over 49,000 odd-one-out similarity judgments on 250 three-second video clips of social interactions, and discover a modality gap: despite the task being visual, caption-based language embeddings align better with human similarity than any pretrained video model. We close this gap by fine-tuning a TimeSformer video model on these human judgments with our novel hybrid triplet-RSA objective using low-rank adaptation (LoRA), aligning pairwise distances to human similarity. This fine-tuning protocol yields significantly improved alignment with human perceptions on held-out videos in terms of both explained variance and odd-one-out triplet accuracy. Variance partitioning shows that the fine-tuned video model increases shared variance with language embeddings and explains additional unique variance not captured by the language model. Finally, we test transfer via linear probes and find that human-similarity fine-tuning strengthens the encoding of social-affective attributes (intimacy, valence, dominance, communication) relative to the pretrained baseline. Overall, our findings highlight a gap in pretrained video models' social recognition and demonstrate that behavior-guided fine-tuning shapes video representations toward human social perception.
- Abstract(参考訳): 人間は視覚シーンで複雑な社会的シグナルを直感的に知覚するが、最先端のAIモデルが同じ類似構造をコードしているかどうかは不明だ。
本研究では,現代ビデオと言語モデルが社会的ビデオにおける人間の知覚的類似性を捉えているかどうかを考察し,その構造を人間の行動データを用いてモデルに組み込む方法について検討した。
これを解決するために,250の3秒のビデオクリップに対して49,000以上の奇数対1の類似性判定のベンチマークを新たに導入し,視覚的なタスクにもかかわらず,キャプションベースの言語埋め込みは,事前訓練されたビデオモデルよりも人間の類似性によく適合する,モダリティギャップを発見する。
低ランク適応(LoRA)を用いた新しいハイブリッドトリプルトRSA目標を用いて、タイムスフォーマービデオモデルを人間の判断に基づいて微調整することで、このギャップを埋める。
この微調整プロトコルは、説明されたばらつきと奇数ワンアウトの3重項精度の両方の観点から、ホールドアウトビデオ上の人間の知覚との整合性を大幅に向上させる。
変数分割は、微調整されたビデオモデルが言語埋め込みとの共有分散を増大させ、言語モデルが捉えない追加のユニークな分散を説明することを示している。
最後に, 線形プローブによる移動実験を行い, 人相の微調整により, 予め訓練したベースラインに対する社会的影響特性(親密性, 有価性, 支配性, コミュニケーション)の符号化が強化されることを見出した。
以上の結果から,事前に訓練した映像モデルの社会的認識のギャップが強調され,行動誘導型微調整型映像表現が人間の社会的知覚に向けられることを示す。
関連論文リスト
- HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly [15.347208661111198]
HumanSAMは、人間中心のフォージェリーを、生成されたコンテンツでよく見られる3つの異なる種類のアーティファクトに分類することを目的としている。
HumanSAMは、バイナリとマルチクラスの偽造分類の両方において、最先端の手法と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2025-07-26T12:03:47Z) - Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Predicting Human Similarity Judgments Using Large Language Models [13.33450619901885]
本稿では,テキスト記述に基づく類似性判断の効率的な予測手法を提案する。
要求される説明の数は刺激の数とともに直線的にしか増加せず、必要なデータ量が劇的に減少する。
本手法は, 自然画像の6つのデータセットを用いて検証し, 視覚情報に基づく従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T21:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。