Fugu-MT 論文翻訳(概要): HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction

論文の概要: HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2506.20566v1
Date: Wed, 25 Jun 2025 16:01:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 21:00:42.831063
Title: HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction
Title（参考訳）: HRIBench:人間-ロボットインタラクションにおけるリアルタイム人間の知覚のためのビジョンランゲージモデルのベンチマーク
Authors: Zhonghao Shi, Enyu Zhao, Nathaniel Dennler, Jingzhen Wang, Xinyang Xu, Kaleen Shrestha, Mengxue Fu, Daniel Seita, Maja Matarić,
Abstract要約: 大きな視覚レイテンシモデル(VLM)は、有望な一般化可能な知覚能力を提供するが、しばしば高いレイテンシに悩まされる。 HRIの人間の知覚におけるVLM能力を体系的に研究するために,HRIBenchを紹介する。 HRIBenchは,(1)非言語的キュー理解,(2)言語的指示理解,(3)人間とロボットの関係理解,(4)ソーシャルナビゲーション,(5)個人識別の5つの主要な領域をカバーしている。
参考スコア（独自算出の注目度）: 2.399613215423982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-time human perception is crucial for effective human-robot interaction (HRI). Large vision-language models (VLMs) offer promising generalizable perceptual capabilities but often suffer from high latency, which negatively impacts user experience and limits VLM applicability in real-world scenarios. To systematically study VLM capabilities in human perception for HRI and performance-latency trade-offs, we introduce HRIBench, a visual question-answering (VQA) benchmark designed to evaluate VLMs across a diverse set of human perceptual tasks critical for HRI. HRIBench covers five key domains: (1) non-verbal cue understanding, (2) verbal instruction understanding, (3) human-robot object relationship understanding, (4) social navigation, and (5) person identification. To construct HRIBench, we collected data from real-world HRI environments to curate questions for non-verbal cue understanding, and leveraged publicly available datasets for the remaining four domains. We curated 200 VQA questions for each domain, resulting in a total of 1000 questions for HRIBench. We then conducted a comprehensive evaluation of both state-of-the-art closed-source and open-source VLMs (N=11) on HRIBench. Our results show that, despite their generalizability, current VLMs still struggle with core perceptual capabilities essential for HRI. Moreover, none of the models within our experiments demonstrated a satisfactory performance-latency trade-off suitable for real-time deployment, underscoring the need for future research on developing smaller, low-latency VLMs with improved human perception capabilities. HRIBench and our results can be found in this Github repository: https://github.com/interaction-lab/HRIBench.
Abstract（参考訳）: リアルタイムの人間の知覚は、効果的な人間-ロボット相互作用(HRI)に不可欠である。大きな視覚言語モデル(VLM)は、有望な一般化可能な知覚能力を提供するが、しばしば高いレイテンシに悩まされ、ユーザエクスペリエンスに悪影響を及ぼし、現実のシナリオにおけるVLMの適用性を制限する。 HRIに対する人間の知覚におけるVLMの能力と性能-レイテンシのトレードオフを体系的に研究するために,HRIに批判的な人間の知覚タスクの多岐にわたるVLMを評価するために設計された視覚的質問応答(VQA)ベンチマークであるHRIBenchを紹介した。 HRIBenchは,(1)非言語的キュー理解,(2)言語的指示理解,(3)人間とロボットの関係理解,(4)ソーシャルナビゲーション,(5)個人識別の5つの主要な領域をカバーしている。 HRIBenchを構築するために、実世界のHRI環境から収集したデータを用いて、非言語的キュー理解のための質問をキュレートし、残りの4つのドメインで利用可能なデータセットを活用しました。私たちは、各ドメインに対して200のVQA質問をキュレートし、合計1000の質問をHRIBenchに対して行った。その後,HRIBench上で最先端のクローズドソースとオープンソースVLM(N=11)の総合評価を行った。以上の結果から,現在のVLMはHRIに必要な中核知覚能力に苦慮していることが明らかとなった。さらに,本実験では,より小型で低遅延なVLMの開発に向けた今後の研究の必要性を浮き彫りにして,実時間展開に適した性能・レイテンシのトレードオフを実証する実験は行われなかった。 https://github.com/interaction-lab/HRIBench.com/ https://github.com/HRIBench.com/ https://github.com/interaction-lab/HRIBench.com/ https://github.com/HRIBench.com/

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文参考訳（メタデータ） (2025-05-23T09:06:09Z)
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文参考訳（メタデータ） (2025-04-29T11:18:38Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [63.54109142085327]
VLN(Vision-and-Language Navigation)システムは、離散(パノラマ)または連続(フリーモーション)のパラダイムのみに焦点を当てることが多い。我々は、これらのパラダイムを明示的な社会的認識制約の下でマージする統合されたヒューマン・アウェアVLNベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-18T13:05:55Z)
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文参考訳（メタデータ） (2025-03-17T04:06:34Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文参考訳（メタデータ） (2024-06-27T15:01:42Z)
TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。 11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文参考訳（メタデータ） (2024-06-04T17:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。