論文の概要: Implicit Affordance Acquisition via Causal Action-Effect Modeling in the
Video Domain
- arxiv url: http://arxiv.org/abs/2312.11345v1
- Date: Mon, 18 Dec 2023 16:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:19:00.547686
- Title: Implicit Affordance Acquisition via Causal Action-Effect Modeling in the
Video Domain
- Title(参考訳): 因果行動モデルによる映像領域のインプシット・アフォーダンス獲得
- Authors: Hsiu-Yu Yang and Carina Silberer
- Abstract要約: 近年の知見は,大規模な自己指導型事前学習を通じて世界知識が生まれることを示唆している。
モデルにおける2つの価格特性の獲得を促進するための2つの新しい事前訓練タスクを提案する。
提案手法の有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 5.188825486231326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Affordance knowledge is a fundamental aspect of commonsense knowledge. Recent
findings indicate that world knowledge emerges through large-scale
self-supervised pretraining, motivating our exploration of acquiring affordance
knowledge from the visual domain. To this end, we augment an existing
instructional video resource to create the new Causal Action-Effect (CAE)
dataset and design two novel pretraining tasks -- Masked Action Modeling (MAM)
and Masked Effect Modeling (MEM) -- promoting the acquisition of two affordance
properties in models: behavior and entity equivalence, respectively. We
empirically demonstrate the effectiveness of our proposed methods in learning
affordance properties. Furthermore, we show that a model pretrained on both
tasks outperforms a strong image-based visual-linguistic foundation model
(FLAVA) as well as pure linguistic models on a zero-shot physical reasoning
probing task.
- Abstract(参考訳): 余裕知識は常識知識の基本的な側面である。
近年の知見は、世界知識が大規模自己指導型事前学習を通じて出現することを示し、視覚領域から手頃な知識を得るための探索を動機付けている。
そこで我々は,新しいCausal Action-Effect(CAE)データセットを作成し,Masked Action Modeling(MAM)とMasked Effect Modeling(MEM)という2つの新しい事前トレーニングタスクを設計するために,既存の指導ビデオリソースを拡張した。
提案手法の有効性を実証的に実証した。
さらに,両タスクで事前学習したモデルが,ゼロショット物理推論タスクにおける純粋言語モデルと同様に,強力な画像ベース視覚言語基礎モデル(flava)よりも優れていることを示す。
関連論文リスト
- Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - Learning to Visually Connect Actions and their Effects [14.733204402684215]
本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
CATEは、ラベルのないビデオからビデオ表現を学習するための効果的な自己教師型タスクであることを示す。
論文 参考訳(メタデータ) (2024-01-19T16:48:49Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Generative Model-based Feature Knowledge Distillation for Action
Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文 参考訳(メタデータ) (2023-12-14T03:55:29Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。
TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2021-06-29T17:56:11Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。