論文の概要: Listening to the Unspoken: Exploring 365 Aspects of Multimodal Interview Performance Assessment
- arxiv url: http://arxiv.org/abs/2507.22676v1
- Date: Wed, 30 Jul 2025 13:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.237248
- Title: Listening to the Unspoken: Exploring 365 Aspects of Multimodal Interview Performance Assessment
- Title(参考訳): 聞き取りに耳を傾ける - マルチモーダルインタビューパフォーマンスアセスメントの365の側面を探る
- Authors: Jia Li, Yang Wang, Wenhao Qian, Zhenzhen Hu, Richang Hong, Meng Wang,
- Abstract要約: インタビューパフォーマンスの365の側面を探求する,斬新で包括的なフレームワークを提案する。
このフレームワークは、不均一なデータストリームをエンコードするために、モダリティ固有の特徴抽出器を使用する。
提案手法は,マルチモーダルデータから暗黙の手がかりと暗黙の手がかりを抽出する。
- 参考スコア(独自算出の注目度): 48.23023893959487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interview performance assessment is essential for determining candidates' suitability for professional positions. To ensure holistic and fair evaluations, we propose a novel and comprehensive framework that explores ``365'' aspects of interview performance by integrating \textit{three} modalities (video, audio, and text), \textit{six} responses per candidate, and \textit{five} key evaluation dimensions. The framework employs modality-specific feature extractors to encode heterogeneous data streams and subsequently fused via a Shared Compression Multilayer Perceptron. This module compresses multimodal embeddings into a unified latent space, facilitating efficient feature interaction. To enhance prediction robustness, we incorporate a two-level ensemble learning strategy: (1) independent regression heads predict scores for each response, and (2) predictions are aggregated across responses using a mean-pooling mechanism to produce final scores for the five target dimensions. By listening to the unspoken, our approach captures both explicit and implicit cues from multimodal data, enabling comprehensive and unbiased assessments. Achieving a multi-dimensional average MSE of 0.1824, our framework secured first place in the AVI Challenge 2025, demonstrating its effectiveness and robustness in advancing automated and multimodal interview performance assessment. The full implementation is available at https://github.com/MSA-LMC/365Aspects.
- Abstract(参考訳): 面接性能評価は、候補者の職業的地位への適合性を決定するために不可欠である。
包括的かつ公平な評価を確実にするために,<textit{ Three}モダリティ(ビデオ,音声,テキスト),<textit{six}応答(候補ごとの応答),<textit{five}キー評価次元を統合することで,インタビューパフォーマンスの ``365'' 側面を探求する,新規かつ包括的なフレームワークを提案する。
このフレームワークは、不均一なデータストリームをエンコードし、その後共有圧縮多層パーセプトロンを介して融合させる。
このモジュールは、マルチモーダル埋め込みを統一潜在空間に圧縮し、効率的な機能相互作用を容易にする。
予測ロバスト性を高めるために,(1)独立回帰ヘッドが応答毎にスコアを予測し,(2)平均プーリング機構を用いて応答間で予測を集約し,5次元の最終的なスコアを生成する,2段階のアンサンブル学習戦略を取り入れた。
提案手法は,マルチモーダルデータから暗黙の手がかりと暗黙の手がかりを抽出し,包括的かつ偏見のない評価を可能にする。
AVI Challenge 2025では,多次元平均MSE0.1824を達成し,自動・マルチモーダル面接性能評価の進歩において,その有効性と堅牢性を実証した。
完全な実装はhttps://github.com/MSA-LMC/365Aspectsで公開されている。
関連論文リスト
- SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions [21.149270997910403]
SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。
我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。
その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
論文 参考訳(メタデータ) (2025-06-29T00:54:13Z) - AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文 参考訳(メタデータ) (2025-05-27T16:17:15Z) - From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment [51.3011761744484]
大規模言語モデルは単一の推論で有限フレームしか処理できない。
視覚的コンテキストサンプリングにより複数の予測を提案し,次に最終的な予測を選択するためのスコアリング機構を提案する。
実験により,この手法がビデオ質問の回答の正解を高い割合でカバーしていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T11:53:03Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。