論文の概要: Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2603.10061v2
- Date: Thu, 12 Mar 2026 01:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.174414
- Title: Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction
- Title(参考訳): 視覚言語モデルに基づく人間-ロボットインタラクションの早期行動予測のための決定-認識不確実性評価
- Authors: Zhaoda Du, Michael Bowman, Qiaojie Zheng, Xiaoli Zhang,
- Abstract要約: 自信過剰な早期予測は、安全でない、あるいは破壊的な相互作用を引き起こす可能性がある。
近年,短期的な行動認識のための視覚言語モデルに基づくアプローチが提案されている。
視覚言語モデルに基づく短期行動認識における不確実性の最初の体系的評価について述べる。
- 参考スコア(独自算出の注目度): 5.479569303819538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots in shared workspaces must interpret human actions from partial, ambiguous observations, where overconfident early predictions can lead to unsafe or disruptive interaction. This challenge is amplified in egocentric views, where viewpoint changes and occlusions increase perceptual noise and ambiguity. As a result, downstream human-robot interaction modules require not only an action hypothesis but also a trustworthy estimate of confidence under partial observation. Recent vision-language model-based approaches have been proposed for short-term action recognition due to their open-vocabulary and context-aware reasoning, but their uncertainty reliability in the temporal-prefix regime is largely uncharacterized. We present the first systematic evaluation of uncertainty in vision-language model-based short-term action recognition for human-robot interaction. We introduce a temporal-prefix evaluation protocol and metrics for calibration and selective prediction. We also characterize miscalibration patterns and failure modes under partial observations. Our study provides the missing reliability evidence needed to use vision-language model predictions in confidence-gated human-robot interaction modules.
- Abstract(参考訳): 共有ワークスペース内のロボットは、不明瞭な観察から人間の行動を解釈しなければならない。
この課題は、視点の変化とオクルージョンが知覚ノイズやあいまいさを増大させるエゴセントリックな視点で増幅される。
その結果、下流の人間とロボットの相互作用モジュールは、行動仮説だけでなく、部分的な観察下での信頼度の推定も必要となる。
最近の視覚言語モデルに基づくアプローチは、そのオープン語彙と文脈認識推論のため、短期的な行動認識のために提案されているが、時間的事前修正体制におけるその不確実性は、ほとんど具体化されていない。
本稿では,人間のロボットインタラクションのための視覚言語モデルに基づく短期行動認識における不確実性の最初の体系的評価について述べる。
時間的事前修正評価プロトコルとキャリブレーションと選択予測のためのメトリクスを導入する。
また、部分的な観察下での誤校正パターンや障害モードも特徴付ける。
本研究は,人間-ロボット相互作用モジュールにおける視覚言語モデル予測に必要となる信頼性の欠如を示す。
関連論文リスト
- SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文 参考訳(メタデータ) (2026-03-17T17:58:44Z) - Before the Outrage: Challenges and Advances in Predicting Online Antisocial Behavior [1.223779595809275]
ソーシャルメディア上での反社会的行動は、プラットフォーム安全と社会福祉の課題を増大させている。
従来の研究は主に有害な内容の検出に重点を置いてきたが、予測的アプローチは将来の有害な行動を予測することを目的としている。
関心が高まりつつも、この分野は断片化され続けており、統一された分類学や既存の方法の明確な合成が欠如している。
論文 参考訳(メタデータ) (2025-07-28T08:27:58Z) - Reasoner Outperforms: Generative Stance Detection with Rationalization for Social Media [12.479554210753664]
本研究は、明確な解釈可能な有理性を含む姿勢予測を含む生成的アプローチを採用する。
姿勢検出に推論を組み込むことで、より小さなモデル(FlanT5)がGPT-3.5のゼロショット性能を上回ることが判明した。
論文 参考訳(メタデータ) (2024-12-13T16:34:39Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。