論文の概要: Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild
- arxiv url: http://arxiv.org/abs/2512.04728v1
- Date: Thu, 04 Dec 2025 12:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.156183
- Title: Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild
- Title(参考訳): アンスポケンの測定--野生におけるアンスポケントモデルと心理学的分析のためのベンチマーク
- Authors: Yigui Feng, Qinglin Wang, Haotian Mo, Yang Liu, Ke Liu, Gencheng Liu, Xinhai Chen, Siqi Shen, Songzhu Mei, Jie Liu,
- Abstract要約: Multilevel Insight Network for Disentanglement (MIND) は、新しい階層型ビジュアルエンコーダである。
ConvoInsight-DBは、マイクロ表現と深い心理的推論のための専門家アノテーションを備えた、新しい大規模データセットである。
PRISMベンチマークでは、MINDは全てのベースラインを著しく上回り、SOTA以前のマイクロ圧縮検出で+86.95%向上した。
- 参考スコア(独自算出の注目度): 19.78493693965451
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative psychological analysis of in-the-wild conversations faces two fundamental challenges: (1) existing Vision-Language Models (VLMs) fail to resolve Articulatory-Affective Ambiguity, where visual patterns of speech mimic emotional expressions; and (2) progress is stifled by a lack of verifiable evaluation metrics capable of assessing visual grounding and reasoning depth. We propose a complete ecosystem to address these twin challenges. First, we introduce Multilevel Insight Network for Disentanglement(MIND), a novel hierarchical visual encoder that introduces a Status Judgment module to algorithmically suppress ambiguous lip features based on their temporal feature variance, achieving explicit visual disentanglement. Second, we construct ConvoInsight-DB, a new large-scale dataset with expert annotations for micro-expressions and deep psychological inference. Third, Third, we designed the Mental Reasoning Insight Rating Metric (PRISM), an automated dimensional framework that uses expert-guided LLM to measure the multidimensional performance of large mental vision models. On our PRISM benchmark, MIND significantly outperforms all baselines, achieving a +86.95% gain in micro-expression detection over prior SOTA. Ablation studies confirm that our Status Judgment disentanglement module is the most critical component for this performance leap. Our code has been opened.
- Abstract(参考訳): 1)既存の視覚・言語モデル(VLM)は、音声の視覚的パターンが感情表現を模倣する調音・感情的あいまいさの解消に失敗する。
この2つの課題に対処するための完全なエコシステムを提案する。
まず,その時間的特徴分散に基づいてあいまいな唇の特徴をアルゴリズム的に抑制し,視覚的ゆがみを明確化するための状態判断モジュールを導入した,新しい階層型視覚エンコーダであるMultilevel Insight Network for Disentanglement(MIND)を紹介する。
第2に、マイクロ表現と深層心理学的推論のための専門家アノテーションを備えた、新しい大規模データセットであるConvoInsight-DBを構築する。
第三に、我々は、専門家誘導LSMを用いて、大規模精神視覚モデルの多次元的性能を測定する自動次元フレームワークであるメンタル推論インサイトレーティングメトリック(PRISM)を設計した。
PRISMベンチマークでは、MINDは全てのベースラインを著しく上回り、SOTA以前のマイクロ圧縮検出で+86.95%向上した。
アブレーション研究により、我々の状態判断アンタングルメントモジュールが、この性能飛躍の最も重要なコンポーネントであることが確認された。
私たちのコードはオープンしました。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - An Interpretable and Uncertainty Aware Multi-Task Framework for
Multi-Aspect Sentiment Analysis [15.755185152760083]
文書レベルのマルチアスペクト感性分類(DMSC)は困難かつ差し迫った問題である。
DMSC問題に対して,意図的な自己注意に基づく深層ニューラルネットワークモデル,すなわちFEDARを提案する。
FEDARは、予測を解釈しながら、競争性能を達成することができる。
論文 参考訳(メタデータ) (2020-09-18T22:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。