論文の概要: Conformal Predictions for Human Action Recognition with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.06631v1
- Date: Mon, 10 Feb 2025 16:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:42.773474
- Title: Conformal Predictions for Human Action Recognition with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた人間の行動認識のためのコンフォーマル予測
- Authors: Bary Tim, Fuchs Clément, Macq Benoît,
- Abstract要約: Conformal Predictions (CP) は、基底真理包含確率を厳格に保証するラベルセットを提供する。
本研究では,現在最先端のヒューマンアクション認識(HAR)手法におけるCPの適用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Human-In-The-Loop (HITL) frameworks are integral to many real-world computer vision systems, enabling human operators to make informed decisions with AI assistance. Conformal Predictions (CP), which provide label sets with rigorous guarantees on ground truth inclusion probabilities, have recently gained traction as a valuable tool in HITL settings. One key application area is video surveillance, closely associated with Human Action Recognition (HAR). This study explores the application of CP on top of state-of-the-art HAR methods that utilize extensively pre-trained Vision-Language Models (VLMs). Our findings reveal that CP can significantly reduce the average number of candidate classes without modifying the underlying VLM. However, these reductions often result in distributions with long tails. To address this, we introduce a method based on tuning the temperature parameter of the VLMs to minimize these tails without requiring additional calibration data. Our code is made available on GitHub at the address https://github.com/tbary/CP4VLM.
- Abstract(参考訳): HITL(Human-In-The-Loop)フレームワークは多くの現実世界のコンピュータビジョンシステムに不可欠なフレームワークであり、人間のオペレーターがAIアシストで情報的な決定をすることができる。
基底真理包含確率の厳密な保証をラベルセットに提供する Conformal Predictions (CP) は近年,HITL 設定において重要なツールとして注目を集めている。
主要な応用分野の1つはビデオ監視であり、ヒューマンアクション認識(HAR)と密接に関連している。
本研究では、広範に事前学習された視覚言語モデル(VLM)を利用した最先端HAR法へのCPの適用について検討する。
以上の結果から, CPはVLMを変更することなく, 平均クラス数を大幅に削減できることが明らかとなった。
しかし、これらの減少はしばしば長い尾を持つ分布をもたらす。
そこで本研究では,VLMの温度パラメータを調整し,キャリブレーションデータを必要とせずにテールを最小化する手法を提案する。
私たちのコードはGitHubでhttps://github.com/tbary/CP4VLM.comで公開されています。
関連論文リスト
- Tangled Program Graphs as an alternative to DRL-based control algorithms for UAVs [0.43695508295565777]
ディープ強化学習(Dep reinforcement Learning, DRL)は、現在、自動運転車の制御において最も一般的なAIベースのアプローチである。
このアプローチには、高い計算要求と低い説明可能性という、いくつかの大きな欠点がある。
本稿では,DRLの代替としてTangled Program Graphs (TPG) を提案する。
論文 参考訳(メタデータ) (2024-11-08T14:20:29Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Approximating Two-Layer ReLU Networks for Hidden State Analysis in Differential Privacy [3.8254443661593633]
DP-SGDで訓練した1つの隠蔽層ReLUネットワークに匹敵する,プライバシユーティリティトレードオフによる凸問題をプライベートにトレーニングすることが可能である。
ベンチマーク分類タスクの実験により、NoisyCGDは1層ReLUネットワークに適用されたDP-SGDに匹敵するプライバシー利用トレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-05T22:43:32Z) - Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Open-Vocabulary Calibration for Fine-tuned CLIP [44.82453633696438]
微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:42:48Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。