論文の概要: Unsupervised Human Activity Recognition through Two-stage Prompting with
ChatGPT
- arxiv url: http://arxiv.org/abs/2306.02140v1
- Date: Sat, 3 Jun 2023 15:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:16:22.218876
- Title: Unsupervised Human Activity Recognition through Two-stage Prompting with
ChatGPT
- Title(参考訳): ChatGPTを用いた2段階プロンプティングによる教師なし人間活動認識
- Authors: Qingxin Xia and Takuya Maekawa and Takahiro Hara
- Abstract要約: 本稿では、まずChatGPTを誘導し、オブジェクトに関連するアクティビティ記述を生成する2段階のプロンプトエンジニアリングを提案する。
これは、ChatGPTを用いて、教師なしの方法で物体を用いて活動を認識する最初の研究である。
- 参考スコア(独自算出の注目度): 9.339374893225111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wearable sensor devices, which offer the advantage of recording daily objects
used by a person while performing an activity, enable the feasibility of
unsupervised Human Activity Recognition (HAR). Unfortunately, previous
unsupervised approaches using the usage sequence of objects usually require a
proper description of activities manually prepared by humans. Instead, we
leverage the knowledge embedded in a Large Language Model (LLM) of ChatGPT.
Because the sequence of objects robustly characterizes the activity identity,
it is possible that ChatGPT already learned the association between activities
and objects from existing contexts. However, previous prompt engineering for
ChatGPT exhibits limited generalization ability when dealing with a list of
words (i.e., sequence of objects) due to the similar weighting assigned to each
word in the list. In this study, we propose a two-stage prompt engineering,
which first guides ChatGPT to generate activity descriptions associated with
objects while emphasizing important objects for distinguishing similar
activities; then outputs activity classes and explanations for enhancing the
contexts that are helpful for HAR. To the best of our knowledge, this is the
first study that utilizes ChatGPT to recognize activities using objects in an
unsupervised manner. We conducted our approach on three datasets and
demonstrated the state-of-the-art performance.
- Abstract(参考訳): 動作中に日常的に使用する物体を記録できることの利点を提供するウェアラブルセンサ装置は、教師なしの人間活動認識(HAR)の実現を可能にする。
残念なことに、オブジェクトの使用順序を使用する以前の教師なしアプローチでは、通常は人間が手動で用意したアクティビティを適切に記述する必要がある。
代わりに、ChatGPTのLarge Language Model(LLM)に埋め込まれた知識を活用します。
オブジェクトのシーケンスはアクティビティのアイデンティティを強く特徴付けるため、ChatGPTはすでに既存のコンテキストからアクティビティとオブジェクトの関係を学習している可能性がある。
しかしながら、chatgptの以前のプロンプトエンジニアリングは、リストの各単語に割り当てられた同様の重み付けのため、単語のリスト(すなわちオブジェクトのシーケンス)を扱う際に限定的な一般化能力を示す。
本研究では,2段階のプロンプトエンジニアリングを提案し,まずChatGPTを誘導してオブジェクトに関連するアクティビティ記述を生成するとともに,類似したアクティビティを識別するための重要なオブジェクトを強調し,HARに役立つコンテキストを強化するためのアクティビティクラスと説明を出力する。
私たちの知る限りでは、chatgptを使って教師なしの方法でオブジェクトを使ってアクティビティを認識する最初の研究です。
3つのデータセットに対するアプローチを実施し,最先端のパフォーマンスを実証した。
関連論文リスト
- P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Android in the Zoo: Chain-of-Action-Thought for GUI Agents [38.07337874116759]
この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するために,AitZ(Android-In-The-Zoo)という,18,643のスクリーンアクションペアとチェーン・オブ・アクションを組み合わせたデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation [33.25497578184437]
本稿では,セッション中のユーザのインタラクションに基づいて,パーソナライズされたバンドル生成と,その基盤となる意図推論という2つの相互関連タスクについて検討する。
そこで我々は,ChatGPTが密接に関連するセッションから,高度で動的に学習できる動的インコンテキスト学習パラダイムを提案する。
本研究では,(1)監督信号のないタスク間の相互改善を促進する自己補正戦略,(2)動的監視を繰り返す自動フィードバック機構を開発する。
論文 参考訳(メタデータ) (2023-12-26T08:24:24Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus [22.302137281411646]
ChatGPTはその素晴らしいパフォーマンスのために大きな関心を集めている。
その潜在的なリスクについて懸念が高まっている。
ChatGPT生成テキストを検出するために使用される現在のデータセットは、主に質問応答タスクに焦点を当てている。
論文 参考訳(メタデータ) (2023-09-06T05:33:57Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。