論文の概要: Conformal Predictions for Human Action Recognition with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.06631v2
- Date: Tue, 22 Jul 2025 14:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:10.560543
- Title: Conformal Predictions for Human Action Recognition with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた人間の行動認識のためのコンフォーマル予測
- Authors: Bary Tim, Fuchs Clément, Macq Benoît,
- Abstract要約: 本研究では, コンフォーマル予測技術が, 最先端の人間の行動認識システムの信頼性を高める方法について検討する。
CPは、基礎となるVision-Language Modelを変更することなく、候補クラスの平均数を著しく削減できることを示す。
追加のキャリブレーションデータを用いることなく,ソフトマックス予測の温度を調整することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human-in-the-Loop (HITL) systems are essential in high-stakes, real-world applications where AI must collaborate with human decision-makers. This work investigates how Conformal Prediction (CP) techniques, which provide rigorous coverage guarantees, can enhance the reliability of state-of-the-art human action recognition (HAR) systems built upon Vision-Language Models (VLMs). We demonstrate that CP can significantly reduce the average number of candidate classes without modifying the underlying VLM. However, these reductions often result in distributions with long tails which can hinder their practical utility. To mitigate this, we propose tuning the temperature of the softmax prediction, without using additional calibration data. This work contributes to ongoing efforts for multi-modal human-AI interaction in dynamic real-world environments.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ(Human-in-the-Loop、HITL)システムは、AIが人間の意思決定者と協力しなくてはならない、ハイテイクで現実世界のアプリケーションに不可欠である。
本研究では、厳密なカバレッジ保証を提供する Conformal Prediction (CP) 技術が、ビジョン・ランゲージ・モデル(VLM)上に構築された最先端の人間行動認識(HAR)システムの信頼性を高める方法について検討する。
CPは、VLMを変更することなく、候補クラスの平均数を著しく削減できることを示す。
しかし、これらの削減は多くの場合、その実用性を妨げうる長い尾を持つ分布をもたらす。
これを軽減するために,予備キャリブレーションデータを用いることなく,ソフトマックス予測の温度を調整することを提案する。
この研究は、動的現実環境におけるマルチモーダルなヒューマン-AIインタラクションへの継続的な取り組みに寄与する。
関連論文リスト
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Robotic Policy Learning via Human-assisted Action Preference Optimization [23.970142506006397]
VLA(Vision-Language-Action)モデルは、そのようなロボット展開の基礎モデルとして広く認識されている。
本稿では,Human-Assisted Action Preference Optimization(HAPO)を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:14:18Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [51.834607121538724]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation [39.43049944895508]
Instruction-Augmented Long-Horizon Planning (IALP) システムを提案する。
その結果, IALPシステムでは, 平均成功率80%を超えるタスクを効率的に解けることがわかった。
論文 参考訳(メタデータ) (2025-03-11T06:37:33Z) - Seeing with Partial Certainty: Conformal Prediction for Robotic Scene Recognition in Built Environments [6.295098866364597]
本稿では,VLMを用いた位置認識における不確実性の測定・調整を目的としたフレームワークであるSeing with partial Certainty(SwPC)を紹介する。
SwPCは、人間の助けを求めるリクエストを最小限に抑えつつ、位置認識に関する統計的保証を提供するために、共形予測の理論に基づいて構築されている。
論文 参考訳(メタデータ) (2025-01-09T03:50:00Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Towards Adaptive Human-centric Video Anomaly Detection: A Comprehensive Framework and A New Benchmark [2.473948454680334]
人間中心型ビデオ異常検出(VAD)は、正常から逸脱する人間の行動を特定することを目的としている。
本稿では,Human-centric privacy-enhanced Video Anomaly Detection(Human-centric privacy-enhanced Video Anomaly Detection)データセットと,新しい教師なし連続異常学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-26T14:55:23Z) - Coalitions of Large Language Models Increase the Robustness of AI Agents [3.216132991084434]
大規模言語モデル(LLM)は、私たちがデジタルシステムと対話する方法を根本的に変えました。
LLMは強力で、いくつかの創発的な特性を示すことができるが、AIエージェントによって実行されるすべてのサブタスクでうまく機能するのに苦労する。
個別のサブタスクで特別性能を示す事前訓練されたLLMの連立系が,単一モデルエージェントの性能に適合するかどうかを評価する。
論文 参考訳(メタデータ) (2024-08-02T16:37:44Z) - Approximating Two-Layer ReLU Networks for Hidden State Analysis in Differential Privacy [3.8254443661593633]
DP-SGDで訓練した1つの隠蔽層ReLUネットワークに匹敵する,プライバシユーティリティトレードオフによる凸問題をプライベートにトレーニングすることが可能である。
ベンチマーク分類タスクの実験により、NoisyCGDは1層ReLUネットワークに適用されたDP-SGDに匹敵するプライバシー利用トレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-05T22:43:32Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Open-Vocabulary Calibration for Fine-tuned CLIP [44.82453633696438]
微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:42:48Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。