論文の概要: Few-Shot Classification of Interactive Activities of Daily Living (InteractADL)
- arxiv url: http://arxiv.org/abs/2406.01662v2
- Date: Wed, 16 Oct 2024 23:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:10.844023
- Title: Few-Shot Classification of Interactive Activities of Daily Living (InteractADL)
- Title(参考訳): 日常生活の対話活動の少ない分類法(InteractADL)
- Authors: Zane Durante, Robathan Harries, Edward Vendrow, Zelun Luo, Yuta Kyuragi, Kazuki Kozuka, Li Fei-Fei, Ehsan Adeli,
- Abstract要約: 我々は、人間(と物体)間の相互作用を含む複雑なADLを理解するための新しいデータセットとベンチマーク、InteractADLを提案する。
そこで本研究では,クラス名ベクトルを学習することにより,よりセマンティックなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
- 参考スコア(独自算出の注目度): 17.15896055218621
- License:
- Abstract: Understanding Activities of Daily Living (ADLs) is a crucial step for different applications including assistive robots, smart homes, and healthcare. However, to date, few benchmarks and methods have focused on complex ADLs, especially those involving multi-person interactions in home environments. In this paper, we propose a new dataset and benchmark, InteractADL, for understanding complex ADLs that involve interaction between humans (and objects). Furthermore, complex ADLs occurring in home environments comprise a challenging long-tailed distribution due to the rarity of multi-person interactions, and pose fine-grained visual recognition tasks due to the presence of semantically and visually similar classes. To address these issues, we propose a novel method for fine-grained few-shot video classification called Name Tuning that enables greater semantic separability by learning optimal class name vectors. We show that Name Tuning can be combined with existing prompt tuning strategies to learn the entire input text (rather than only learning the prompt or class names) and demonstrate improved performance for few-shot classification on InteractADL and 4 other fine-grained visual classification benchmarks. For transparency and reproducibility, we release our code at https://github.com/zanedurante/vlm_benchmark.
- Abstract(参考訳): 日常生活のアクティビティ(ADL)を理解することは、補助ロボット、スマートホーム、ヘルスケアなど、さまざまなアプリケーションにとって重要なステップである。
しかし、これまでに複雑なADL、特に家庭環境における多人数インタラクションに焦点を絞ったベンチマークや手法はほとんどない。
本稿では,人間(と物体)間の相互作用を含む複雑なADLを理解するために,新しいデータセットとベンチマークであるInteractADLを提案する。
さらに、家庭環境において発生する複雑なADLは、多人数インタラクションの希少性により、困難で長い尾の分布を構成し、意味的および視覚的に類似したクラスが存在するため、きめ細かな視覚認識タスクを行う。
これらの問題に対処するために、最適なクラス名ベクトルを学習することで、より意味的な分離を可能にする、ネームチューニングと呼ばれる、きめ細かいビデオ分類法を提案する。
入力テキスト全体(プロンプトやクラス名のみを学習するのではなく)を学習するための既存のプロンプトチューニング戦略と組み合わせて、InteractADLおよび他の4つのきめ細かい視覚的分類ベンチマーク上でのいくつかのショット分類の性能向上を示す。
透明性と再現性のために、私たちはhttps://github.com/zanedurante/vlm_benchmark.comでコードを公開しています。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [15.41342100228504]
ディープラーニングでは、データが不足している状況での学習を容易にするために補助的な目的がしばしば使用される。
Detauxと呼ばれる新しいフレームワークを提案し、非関係な新しい分類タスクを見つけるために、弱い教師付き非絡み込み手順を用いている。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Visual Compositional Learning for Human-Object Interaction Detection [111.05263071111807]
人間-物体相互作用(Human-Object Interaction,HOI)は、画像中の人間と物体の関係を局所化し、推測することを目的としている。
オブジェクトと動詞の型の組み合わせの膨大な数が、長い尾の分布を形成するため、これは難しい。
私たちは、この問題に効果的に対処するための、シンプルで効率的なフレームワークである、深いビジュアルコンポジション学習フレームワークを考案しました。
論文 参考訳(メタデータ) (2020-07-24T08:37:40Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。