論文の概要: Tabular foundation model to detect empathy from visual cues
- arxiv url: http://arxiv.org/abs/2504.10808v1
- Date: Tue, 15 Apr 2025 02:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:57.473163
- Title: Tabular foundation model to detect empathy from visual cues
- Title(参考訳): 視覚的手がかりから共感を検出するタブラル基礎モデル
- Authors: Md Rakibul Hasan, Shafin Rahman, Md Zakir Hossain, Aneesh Krishna, Tom Gedeon,
- Abstract要約: ビデオデータセットは、プライバシーや倫理上の懸念から、生の映像ではなく抽出された機能としてリリースされることが多い。
近年のテキスト基礎モデルの成功に触発され,共感検出における表層基盤モデルの利用について検討した。
人-ロボット相互作用ベンチマーク実験では, 物体間共感検出精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 8.823417072582348
- License:
- Abstract: Detecting empathy from video interactions is an emerging area of research. Video datasets, however, are often released as extracted features (i.e., tabular data) rather than raw footage due to privacy and ethical concerns. Prior research on such tabular datasets established tree-based classical machine learning approaches as the best-performing models. Motivated by the recent success of textual foundation models (i.e., large language models), we explore the use of tabular foundation models in empathy detection from tabular visual features. We experiment with two recent tabular foundation models $-$ TabPFN v2 and TabICL $-$ through in-context learning and fine-tuning setups. Our experiments on a public human-robot interaction benchmark demonstrate a significant boost in cross-subject empathy detection accuracy over several strong baselines (accuracy: $0.590 \rightarrow 0.730$; AUC: $0.564 \rightarrow 0.669$). In addition to performance improvement, we contribute novel insights and an evaluation setup to ensure generalisation on unseen subjects in this public benchmark. As the practice of releasing video features as tabular datasets is likely to persist due to privacy constraints, our findings will be widely applicable to future empathy detection video datasets as well.
- Abstract(参考訳): ビデオの対話から共感を検出することは、新たな研究分野である。
しかし、ビデオデータセットは、プライバシーや倫理上の懸念から生の映像ではなく、抽出された特徴(すなわち表データ)としてリリースされることが多い。
このような表形式のデータセットに関する以前の研究は、木に基づく古典的な機械学習アプローチを最高のパフォーマンスモデルとして確立した。
近年,テキスト基礎モデル(大規模言語モデル)の成功に触発されて,表層視覚特徴からの共感検出における表層基盤モデルの利用について検討した。
最近,TabPFN v2 と TabICL $-$ の2つの基礎モデルについて実験を行った。
人-ロボット相互作用ベンチマークを用いた実験では、複数の強いベースライン(精度:$0.590 \rightarrow 0.730$; AUC:$0.564 \rightarrow 0.669$; AUC:$0.564 \rightarrow 0.669$)に対して、オブジェクト間の共感検出精度が大幅に向上した。
性能改善に加えて,このベンチマークの未確認対象に対する一般化を確保するために,新たな洞察と評価設定を貢献する。
ビデオ機能をタブ形式のデータセットとしてリリースするプラクティスは、プライバシー上の制約により継続する可能性が高いため、我々の発見は、将来の共感検出ビデオデータセットにも広く適用できるだろう。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - Trompt: Towards a Better Deep Neural Network for Tabular Data [7.634967263296487]
本稿では,言語モデルの素早い学習に触発された新しいアーキテクチャであるTromptを提案する。
実験結果は、Trumptが最先端のディープニューラルネットワークより優れており、ツリーベースモデルに匹敵することを示している。
論文 参考訳(メタデータ) (2023-05-29T03:51:18Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。