論文の概要: HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction
- arxiv url: http://arxiv.org/abs/2412.13187v2
- Date: Wed, 18 Dec 2024 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:17.947495
- Title: HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction
- Title(参考訳): HandsOnVLM:手動インタラクション予測のための視覚言語モデル
- Authors: Chen Bao, Jiarui Xu, Xiaolong Wang, Abhinav Gupta, Homanga Bharadhwaj,
- Abstract要約: 我々は,従来の手指の軌跡予測タスクを,明示的あるいは暗黙的な言語クエリを含む2つのタスクに拡張する。
VHP(Vanilla Hand Prediction)とRBHP(Reasoning-Based Hand Prediction)の2つの課題を評価するための新しいベンチマークを開発した。
我々のモデルであるHandsOnVLMは、テキスト応答を生成し、自然言語による会話を通じて、将来のハンドトラジェクトリを生成する新しいVLMである。
- 参考スコア(独自算出の注目度): 36.0265890960404
- License:
- Abstract: How can we predict future interaction trajectories of human hands in a scene given high-level colloquial task specifications in the form of natural language? In this paper, we extend the classic hand trajectory prediction task to two tasks involving explicit or implicit language queries. Our proposed tasks require extensive understanding of human daily activities and reasoning abilities about what should be happening next given cues from the current scene. We also develop new benchmarks to evaluate the proposed two tasks, Vanilla Hand Prediction (VHP) and Reasoning-Based Hand Prediction (RBHP). We enable solving these tasks by integrating high-level world knowledge and reasoning capabilities of Vision-Language Models (VLMs) with the auto-regressive nature of low-level ego-centric hand trajectories. Our model, HandsOnVLM is a novel VLM that can generate textual responses and produce future hand trajectories through natural-language conversations. Our experiments show that HandsOnVLM outperforms existing task-specific methods and other VLM baselines on proposed tasks, and demonstrates its ability to effectively utilize world knowledge for reasoning about low-level human hand trajectories based on the provided context. Our website contains code and detailed video results https://www.chenbao.tech/handsonvlm/
- Abstract(参考訳): 自然言語の形で高レベルな口語タスク仕様を前提としたシーンにおいて、人間の未来の対話軌跡をどうやって予測できるのか?
本稿では,古典的な手動軌跡予測タスクを,明示的あるいは暗黙的な言語クエリを含む2つのタスクに拡張する。
提案課題は,人間の日常活動の広範な理解と,次に何が起こるべきかの推論能力である。
また,提案した2つのタスク,Vanilla Hand Prediction (VHP) とReasoning-Based Hand Prediction (RBHP) を評価するためのベンチマークも開発した。
我々は、視覚言語モデル(VLM)の高レベルな世界知識と推論能力と、低レベルな自我中心のハンドトラジェクトリの自己回帰性を統合することで、これらの課題を解決することができる。
我々のモデルであるHandsOnVLMは、テキスト応答を生成し、自然言語による会話を通じて、将来のハンドトラジェクトリを生成する新しいVLMである。
実験の結果,HandsOnVLMは既存のタスク固有の手法やVLMのベースラインよりも優れており,提案したコンテキストに基づいた低レベルのヒューマンハンドトラジェクトリの推論に世界知識を効果的に活用できることが示されている。
私たちのWebサイトには、コードと詳細なビデオ結果 https://www.chenbao.tech/handsonvlm/
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Spoken Language Understanding for Conversational AI: Recent Advances and
Future Direction [5.829344935864271]
本チュートリアルでは,Spoken Language Understanding/Natural Language Understanding (SLU/NLU) とDeep Learning技術を紹介する。
本稿では,最新のNLPおよびDeep Learning技術を用いて共同作業に対処する方法について述べる。
論文 参考訳(メタデータ) (2022-12-21T02:47:52Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。