論文の概要: KRAST: Knowledge-Augmented Robotic Action Recognition with Structured Text for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.16452v1
- Date: Fri, 19 Sep 2025 22:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.799151
- Title: KRAST: Knowledge-Augmented Robotic Action Recognition with Structured Text for Vision-Language Models
- Title(参考訳): KRAST:視覚言語モデルのための構造化テキストを用いた知識強化型ロボット行動認識
- Authors: Son Hai Nguyen, Diwei Wang, Jinhyeok Jang, Hyewon Seo,
- Abstract要約: 我々は、ドメイン固有知識に富んだ視覚言語モデルを活用することで、ロボット知覚のための屋内日常生活行動の映像ベース認識を推進した。
フリーズされたVLMバックボーンに学習可能なプロンプトとして,各アクションのクラスレベルのテキスト記述を組み込むプロンプト学習フレームワークを適用した。
ETRI-Activity3Dデータセットの実験では、テスト時にRGBビデオ入力のみを使用して95%以上の精度を達成し、最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 3.11238474274062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate vision-based action recognition is crucial for developing autonomous robots that can operate safely and reliably in complex, real-world environments. In this work, we advance video-based recognition of indoor daily actions for robotic perception by leveraging vision-language models (VLMs) enriched with domain-specific knowledge. We adapt a prompt-learning framework in which class-level textual descriptions of each action are embedded as learnable prompts into a frozen pre-trained VLM backbone. Several strategies for structuring and encoding these textual descriptions are designed and evaluated. Experiments on the ETRI-Activity3D dataset demonstrate that our method, using only RGB video inputs at test time, achieves over 95\% accuracy and outperforms state-of-the-art approaches. These results highlight the effectiveness of knowledge-augmented prompts in enabling robust action recognition with minimal supervision.
- Abstract(参考訳): 正確な視覚に基づく行動認識は、複雑な現実の環境で安全かつ確実に動作可能な自律ロボットを開発するために不可欠である。
本研究では、視覚言語モデル(VLM)をドメイン固有知識に富んだ活用により、ロボット知覚のための屋内日常生活行動の映像ベース認識を推進した。
フリーズされたVLMバックボーンに学習可能なプロンプトとして,各アクションのクラスレベルのテキスト記述を組み込むプロンプト学習フレームワークを適用した。
これらのテキスト記述を構造化し、符号化するためのいくつかの戦略を設計し、評価する。
ETRI-Activity3Dデータセットの実験では、テスト時にRGBビデオ入力のみを使用して95%以上の精度を実現し、最先端の手法よりも優れていた。
これらの結果は、最小限の監督力で堅牢な行動認識を可能にするための知識強化プロンプトの有効性を強調した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Text-Enhanced Zero-Shot Action Recognition: A training-free approach [13.074211474150914]
ゼロショット映像行動認識のためのテキスト強調行動認識(TEAR)を提案する。
TEARはトレーニングフリーであり、トレーニングデータや広範な計算資源の可用性を必要としない。
論文 参考訳(メタデータ) (2024-08-29T10:20:05Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition [48.456059482589495]
本研究では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。
本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。