論文の概要: Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task
- arxiv url: http://arxiv.org/abs/2212.03866v1
- Date: Wed, 7 Dec 2022 05:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:23:15.932944
- Title: Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task
- Title(参考訳): 仮想視覚言語推論タスクにおける学習行動効果ダイナミクス
- Authors: Shailaja Keyur Sampat, Pratyay Banerjee, Yezhou Yang and Chitta Baral
- Abstract要約: 本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
- 参考スコア(独自算出の注目度): 50.72283841720014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 'Actions' play a vital role in how humans interact with the world. Thus,
autonomous agents that would assist us in everyday tasks also require the
capability to perform 'Reasoning about Actions & Change' (RAC). This has been
an important research direction in Artificial Intelligence (AI) in general, but
the study of RAC with visual and linguistic inputs is relatively recent. The
CLEVR_HYP (Sampat et. al., 2021) is one such testbed for hypothetical
vision-language reasoning with actions as the key focus. In this work, we
propose a novel learning strategy that can improve reasoning about the effects
of actions. We implement an encoder-decoder architecture to learn the
representation of actions as vectors. We combine the aforementioned
encoder-decoder architecture with existing modality parsers and a scene graph
question answering model to evaluate our proposed system on the CLEVR_HYP
dataset. We conduct thorough experiments to demonstrate the effectiveness of
our proposed approach and discuss its advantages over previous baselines in
terms of performance, data efficiency, and generalization capability.
- Abstract(参考訳): 人間と世界との相互作用には「行動」が重要な役割を果たしている。
このように、日々の作業を支援する自律エージェントは、「行動と変化に関する推論(RAC)」を実行する能力も必要となる。
これは人工知能(AI)全般において重要な研究方向であるが、視覚的および言語的な入力を伴うRACの研究は比較的最近である。
CLEVR_HYP (Sampat et. al., 2021) は、仮説的な視覚言語推論のためのテストベッドであり、アクションが中心となる。
本研究では,行動の影響に関する推論を改善するための新しい学習戦略を提案する。
我々は,動作の表現をベクトルとして学習するために,エンコーダ・デコーダアーキテクチャを実装した。
上述のエンコーダデコーダアーキテクチャと既存のモダリティパーサとシーングラフ質問応答モデルを組み合わせることで,提案したシステムをCLEVR_HYPデータセット上で評価する。
提案手法の有効性を実証するために徹底的な実験を行い,性能,データ効率,一般化能力の観点から,従来のベースラインよりも優れていることを示す。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。