論文の概要: TFMPathy: Tabular Foundation Model for Privacy-Aware, Generalisable Empathy Detection from Videos
- arxiv url: http://arxiv.org/abs/2504.10808v2
- Date: Sat, 09 Aug 2025 03:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.467635
- Title: TFMPathy: Tabular Foundation Model for Privacy-Aware, Generalisable Empathy Detection from Videos
- Title(参考訳): TFMPathy:ビデオからプライバシーを意識した一般的な共感検出のためのタブラル基礎モデル
- Authors: Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon,
- Abstract要約: ビデオインタラクションからの共感を検出することは、特に医療や社会ロボティクスにおける研究の新たな領域である。
このようなデータセットに関するこれまでの研究は、古典的な木に基づくモデルを最先端技術として確立してきた。
近年,テキストの大規模基盤モデルの成功に触発され,共感検出のための表層基盤モデルの可能性について検討した。
提案システムであるTFMPathyは、テキスト内学習と微調整の両方のパラダイムの下で、最近の2つのFMで実証されている。
- 参考スコア(独自算出の注目度): 8.823417072582348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting empathy from video interactions is an emerging area of research, particularly in healthcare and social robotics. However, privacy and ethical concerns often prevent the release of raw video data, with many datasets instead shared as pre-extracted tabular features. Previous work on such datasets has established classical tree-based models as the state of the art. Motivated by recent successes of large-scale foundation models for text, we investigate the potential of tabular foundation models (TFMs) for empathy detection from video-derived tabular data. Our proposed system, TFMPathy, is demonstrated with two recent TFMs (TabPFN v2 and TabICL) under both in-context learning and fine-tuning paradigms. On a public human-robot interaction benchmark, TFMPathy significantly improves empathy detection accuracy reported in the literature. While the established evaluation protocol in the literature does not ensure cross-subject generalisation, our evaluation scheme also captures such generalisation. We show that TFMPathy under a fine-tuning setup has better cross-subject generalisation capacity over baseline methods (accuracy: $0.590 \rightarrow 0.730$; AUC: $0.564 \rightarrow 0.669$). Given the ongoing privacy and ethical constraints around raw video sharing, the proposed TFMPathy system provides a practical and scalable path toward building AI systems dependent on human-centred video datasets. Our code is publicly available at https://github.com/hasan-rakibul/TFMPathy (will be made available upon acceptance of this paper).
- Abstract(参考訳): ビデオの対話から共感を検出することは、特に医療や社会ロボティクスにおける研究の新たな領域である。
しかし、プライバシーと倫理上の懸念はしばしば生のビデオデータの公開を妨げ、多くのデータセットは事前に抽出された表形式の機能として共有される。
このようなデータセットに関するこれまでの研究は、最先端技術として古典的なツリーベースのモデルを確立してきた。
近年の大規模テキスト基盤モデルの成功に触発されて,ビデオ由来の表層データからの共感検出のための表層基盤モデル(TFM)の可能性を検討した。
提案システムであるTFMPathyは、テキスト内学習と微調整の両方のパラダイムの下で、最近の2つのFM(TabPFN v2とTabICL)で実証されている。
TFMPathyは、人-ロボットのインタラクションベンチマークにおいて、文献で報告されている共感検出精度を大幅に改善する。
文献における確立された評価プロトコルは、クロスオブジェクトの一般化を保証するものではないが、我々の評価スキームはそのような一般化も捉えている。
TFMPathyを微調整した場合、ベースライン法よりもクロスオブジェクトの一般化能力が優れている(精度:$0.590 \rightarrow 0.730$; AUC:$0.564 \rightarrow 0.669$; 精度:$0.590 \rightarrow 0.669$)。
生のビデオ共有に関する継続的なプライバシーと倫理的制約を踏まえ、提案されたTFMPathyシステムは、人間中心のビデオデータセットに依存するAIシステムを構築するための実用的でスケーラブルなパスを提供する。
私たちのコードはhttps://github.com/hasan-rakibul/TFMPathyで公開されています。
関連論文リスト
- Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - TabArena: A Living Benchmark for Machine Learning on Tabular Data [41.730597870821775]
本稿では,最初の持続的リビングベンチマークシステムであるTabArenaを紹介する。
我々は、データセットとよく実装されたモデルの代表的なコレクションを手動でキュレートする。
大規模なベンチマーク調査を行い、公開リーダボードを初期化し、経験豊富なメンテナのチームを組み立てます。
論文 参考訳(メタデータ) (2025-06-20T07:14:48Z) - Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos [0.2796197251957245]
非ヒト霊長類の自然生息地におけるビデオ記録は、野生での行動を研究するための共通の情報源である。
我々は,カプチン猿の特定の領域に対して,事前学習したビデオテキスト基盤モデルを微調整する。
論文 参考訳(メタデータ) (2025-05-08T22:48:52Z) - PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
画像と映像の理解において透過的な研究を行うために,完全オープンかつ再現可能なフレームワークで知覚モデル(PLM)を構築することを研究する。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
これらのギャップを埋めるために、我々は、挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-VideoBenchをリリースした。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - Identifying Misinformation on YouTube through Transcript Contextual
Analysis with Transformer Models [1.749935196721634]
本稿では,コンテンツの正確性に着目した映像分類手法を提案する。
我々は、分類課題を解決するためにトランスファーラーニングのような高度な機械学習技術を採用している。
トレーニングされたモデルを、(a)YouTube Vaccine-misinformation関連ビデオ、(b)YouTube Pseudoscienceビデオ、(c)Fake-Newsデータセットの3つのデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-22T19:59:16Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Trompt: Towards a Better Deep Neural Network for Tabular Data [7.634967263296487]
本稿では,言語モデルの素早い学習に触発された新しいアーキテクチャであるTromptを提案する。
実験結果は、Trumptが最先端のディープニューラルネットワークより優れており、ツリーベースモデルに匹敵することを示している。
論文 参考訳(メタデータ) (2023-05-29T03:51:18Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。