論文の概要: Jointly Learning Truth-Conditional Denotations and Groundings using
Parallel Attention
- arxiv url: http://arxiv.org/abs/2104.06645v1
- Date: Wed, 14 Apr 2021 06:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 22:07:00.522710
- Title: Jointly Learning Truth-Conditional Denotations and Groundings using
Parallel Attention
- Title(参考訳): 並列アテンションを用いた真相記述と接地を共同学習する
- Authors: Leon Bergen, Dzmitry Bahdanau, Timothy J. O'Donnell
- Abstract要約: 本稿では,真理条件のセマンティクスを用いて,単語の表記と接頭辞を学習するモデルを提案する。
我々のモデルは,CLEVRデータセット内の物体のグラウンド化を学習する,Maoらのニューロシンボリックアプローチに基づいて構築されている。
- 参考スコア(独自算出の注目度): 13.455047232624857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a model that jointly learns the denotations of words together with
their groundings using a truth-conditional semantics. Our model builds on the
neurosymbolic approach of Mao et al. (2019), learning to ground objects in the
CLEVR dataset (Johnson et al., 2017) using a novel parallel attention
mechanism. The model achieves state of the art performance on visual question
answering, learning to detect and ground objects with question performance as
the only training signal. We also show that the model is able to learn flexible
non-canonical groundings just by adjusting answers to questions in the training
set.
- Abstract(参考訳): 本稿では,真理条件のセマンティクスを用いて,単語の表記と基礎を共同で学習するモデルを提案する。
我々のモデルはMaoらのニューロシンボリックアプローチに基づいている。
(2019) CLEVRデータセット(Johnson et al., 2017)で新たな並列アテンション機構を用いて物体のグラウンド学習を行った。
このモデルは、視覚的質問応答、学習、質問応答を伴う物体の検出および接地を唯一の訓練信号として、芸術性能の状態を達成する。
また、トレーニングセットの質問に対する回答を調整するだけで、柔軟な非標準的グラウンドディングを学習できることを示す。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models [28.746370086515977]
視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。
本稿では,タスクのパフォーマンスとフレーズのグラウンド化を共同で研究する枠組みを提案する。
地中表現アノテーションのブルートフォーストレーニングを通じてこの問題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-09-06T03:54:57Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Utilizing Every Image Object for Semi-supervised Phrase Grounding [25.36231298036066]
フレーズグラウンドモデルでは、参照式が与えられた画像内のオブジェクトをローカライズする。
本稿では,半教師付き句接頭辞の学習にラベル付きクエリを使わずにオブジェクトを適用した場合について検討する。
提案手法は,提案手法により,クエリをラベル付けせずに対象物から学習し,検出結果と相対的に34.9%の精度で精度を向上できることを示す。
論文 参考訳(メタデータ) (2020-11-05T04:25:25Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - What is Learned in Visually Grounded Neural Syntax Acquisition [118.6461386981381]
本稿では,視覚的接地型ニューラルシンタクス学習者のケーススタディについて考察する。
モデルの簡易バージョンを構築することにより、モデルの強い性能をもたらすコアファクタを分離する。
名詞具象性の単純な語彙信号がモデルの予測に主要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2020-05-04T17:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。