論文の概要: TFMPathy: Tabular Foundation Model for Privacy-Aware, Generalisable Empathy Detection from Videos
- arxiv url: http://arxiv.org/abs/2504.10808v2
- Date: Sat, 09 Aug 2025 03:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.467635
- Title: TFMPathy: Tabular Foundation Model for Privacy-Aware, Generalisable Empathy Detection from Videos
- Title(参考訳): TFMPathy:ビデオからプライバシーを意識した一般的な共感検出のためのタブラル基礎モデル
- Authors: Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon,
- Abstract要約: ビデオインタラクションからの共感を検出することは、特に医療や社会ロボティクスにおける研究の新たな領域である。
このようなデータセットに関するこれまでの研究は、古典的な木に基づくモデルを最先端技術として確立してきた。
近年,テキストの大規模基盤モデルの成功に触発され,共感検出のための表層基盤モデルの可能性について検討した。
提案システムであるTFMPathyは、テキスト内学習と微調整の両方のパラダイムの下で、最近の2つのFMで実証されている。
- 参考スコア(独自算出の注目度): 8.823417072582348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting empathy from video interactions is an emerging area of research, particularly in healthcare and social robotics. However, privacy and ethical concerns often prevent the release of raw video data, with many datasets instead shared as pre-extracted tabular features. Previous work on such datasets has established classical tree-based models as the state of the art. Motivated by recent successes of large-scale foundation models for text, we investigate the potential of tabular foundation models (TFMs) for empathy detection from video-derived tabular data. Our proposed system, TFMPathy, is demonstrated with two recent TFMs (TabPFN v2 and TabICL) under both in-context learning and fine-tuning paradigms. On a public human-robot interaction benchmark, TFMPathy significantly improves empathy detection accuracy reported in the literature. While the established evaluation protocol in the literature does not ensure cross-subject generalisation, our evaluation scheme also captures such generalisation. We show that TFMPathy under a fine-tuning setup has better cross-subject generalisation capacity over baseline methods (accuracy: $0.590 \rightarrow 0.730$; AUC: $0.564 \rightarrow 0.669$). Given the ongoing privacy and ethical constraints around raw video sharing, the proposed TFMPathy system provides a practical and scalable path toward building AI systems dependent on human-centred video datasets. Our code is publicly available at https://github.com/hasan-rakibul/TFMPathy (will be made available upon acceptance of this paper).
- Abstract(参考訳): ビデオの対話から共感を検出することは、特に医療や社会ロボティクスにおける研究の新たな領域である。
しかし、プライバシーと倫理上の懸念はしばしば生のビデオデータの公開を妨げ、多くのデータセットは事前に抽出された表形式の機能として共有される。
このようなデータセットに関するこれまでの研究は、最先端技術として古典的なツリーベースのモデルを確立してきた。
近年の大規模テキスト基盤モデルの成功に触発されて,ビデオ由来の表層データからの共感検出のための表層基盤モデル(TFM)の可能性を検討した。
提案システムであるTFMPathyは、テキスト内学習と微調整の両方のパラダイムの下で、最近の2つのFM(TabPFN v2とTabICL)で実証されている。
TFMPathyは、人-ロボットのインタラクションベンチマークにおいて、文献で報告されている共感検出精度を大幅に改善する。
文献における確立された評価プロトコルは、クロスオブジェクトの一般化を保証するものではないが、我々の評価スキームはそのような一般化も捉えている。
TFMPathyを微調整した場合、ベースライン法よりもクロスオブジェクトの一般化能力が優れている(精度:$0.590 \rightarrow 0.730$; AUC:$0.564 \rightarrow 0.669$; 精度:$0.590 \rightarrow 0.669$)。
生のビデオ共有に関する継続的なプライバシーと倫理的制約を踏まえ、提案されたTFMPathyシステムは、人間中心のビデオデータセットに依存するAIシステムを構築するための実用的でスケーラブルなパスを提供する。
私たちのコードはhttps://github.com/hasan-rakibul/TFMPathyで公開されています。
関連論文リスト
- TabArena: A Living Benchmark for Machine Learning on Tabular Data [41.730597870821775]
本稿では,最初の持続的リビングベンチマークシステムであるTabArenaを紹介する。
我々は、データセットとよく実装されたモデルの代表的なコレクションを手動でキュレートする。
大規模なベンチマーク調査を行い、公開リーダボードを初期化し、経験豊富なメンテナのチームを組み立てます。
論文 参考訳(メタデータ) (2025-06-20T07:14:48Z) - PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
画像と映像の理解において透過的な研究を行うために,完全オープンかつ再現可能なフレームワークで知覚モデル(PLM)を構築することを研究する。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
これらのギャップを埋めるために、我々は、挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-VideoBenchをリリースした。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - Trompt: Towards a Better Deep Neural Network for Tabular Data [7.634967263296487]
本稿では,言語モデルの素早い学習に触発された新しいアーキテクチャであるTromptを提案する。
実験結果は、Trumptが最先端のディープニューラルネットワークより優れており、ツリーベースモデルに匹敵することを示している。
論文 参考訳(メタデータ) (2023-05-29T03:51:18Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。