論文の概要: ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions
- arxiv url: http://arxiv.org/abs/2410.13662v1
- Date: Thu, 17 Oct 2024 15:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:29.255787
- Title: ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions
- Title(参考訳): ActionCOMET:アクションに関するイメージ固有コモンセンス概念を学習するためのゼロショットアプローチ
- Authors: Shailaja Keyur Sampat, Yezhou Yang, Chitta Baral,
- Abstract要約: 我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
- 参考スコア(独自算出の注目度): 66.20773952864802
- License:
- Abstract: Humans observe various actions being performed by other humans (physically or in videos/images) and can draw a wide range of inferences about it beyond what they can visually perceive. Such inferences include determining the aspects of the world that make action execution possible (e.g. liquid objects can undergo pouring), predicting how the world will change as a result of the action (e.g. potatoes being golden and crispy after frying), high-level goals associated with the action (e.g. beat the eggs to make an omelet) and reasoning about actions that possibly precede or follow the current action (e.g. crack eggs before whisking or draining pasta after boiling). Similar reasoning ability is highly desirable in autonomous systems that would assist us in performing everyday tasks. To that end, we propose a multi-modal task to learn aforementioned concepts about actions being performed in images. We develop a dataset consisting of 8.5k images and 59.3k inferences about actions grounded in those images, collected from an annotated cooking-video dataset. We propose ActionCOMET, a zero-shot framework to discern knowledge present in language models specific to the provided visual input. We present baseline results of ActionCOMET over the collected dataset and compare them with the performance of the best existing VQA approaches.
- Abstract(参考訳): 人間は、他の人間(物理的、またはビデオ/画像)によって実行される様々な行動を観察し、視覚的に知覚できるものを超えて、それに関する広範囲の推論を引き出すことができる。
このような推論には、アクションの実行を可能にする世界の側面を決定すること(例えば、液体の物体が注ぐことができること)、アクションの結果として世界がどのように変化するかを予測すること(例えば、フライ後のジャガイモは金色で辛い)、アクションに関連する高レベルな目標(例えば、卵を叩いてオムレツを作る)、現在のアクションに先立って、あるいはそれに続く可能性のあるアクションを推論すること(例えば、ウイスキーの前に卵を割ったり、沸騰後にパスタを排出したりする)が含まれる。
同様の推論能力は、日々のタスクの実行を支援する自律システムにおいて非常に望ましいものです。
そこで本稿では,画像上で実行される動作について,前述の概念を学習するためのマルチモーダルタスクを提案する。
我々は、アノテーション付き調理ビデオデータセットから収集した8.5kの画像と59.3kのアクションに関する59.3kの推論からなるデータセットを開発する。
提供される視覚入力に特有の言語モデルに存在する知識を識別するゼロショットフレームワークであるActionCOMETを提案する。
本稿では、収集したデータセットに対してActionCOMETのベースライン結果を示し、それらを既存のVQAアプローチのベストパフォーマンスと比較する。
関連論文リスト
- Region-aware Image-based Human Action Retrieval with Transformers [13.075620765136778]
我々は,画像に基づく行動検索において,無視されるが重要な課題に焦点をあてる。
3つの側面からリッチなアクション表現を学習するエンド・ツー・エンドのモデルを提案する。
Stanford-40 と PASCAL VOC 2012 Action データセットの実験では、提案手法が従来の手法よりも大幅に優れていたことが示されている。
論文 参考訳(メタデータ) (2024-07-13T15:34:54Z) - Learning to Visually Connect Actions and their Effects [14.733204402684215]
本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
CATEは、ラベルのないビデオからビデオ表現を学習するための効果的な自己教師型タスクであることを示す。
論文 参考訳(メタデータ) (2024-01-19T16:48:49Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Zero-Shot Action Recognition from Diverse Object-Scene Compositions [15.942187254262091]
本稿では,ゼロショット動作認識の問題点について考察する。
この挑戦的なシナリオのために、現在の主要なアプローチは、事前訓練されたネットワークを使用してビデオ内のオブジェクトを認識することによって、画像領域から知識を伝達することである。
オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。
個々のシーンは、オブジェクトよりも遠方にあるものの、目に見えないアクションを認識することができ、オブジェクトベースのスコアとシーンベースのスコアの直接的な組み合わせは、アクション認識を劣化させる。
論文 参考訳(メタデータ) (2021-10-26T08:23:14Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。