論文の概要: Comparing Trajectory and Vision Modalities for Verb Representation
- arxiv url: http://arxiv.org/abs/2303.12737v1
- Date: Wed, 8 Mar 2023 20:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 03:00:51.940974
- Title: Comparing Trajectory and Vision Modalities for Verb Representation
- Title(参考訳): 動詞表現における軌跡と視覚モーダリティの比較
- Authors: Dylan Ebert, Chen Sun, Ellie Pavlick
- Abstract要約: NLPのマルチモーダルモデルは、世界の表現として2D画像を使用する。
本稿では,この仮説を制御実験で直接検証する。
自己教師付き画像と軌跡エンコーダを訓練し,それぞれが動詞概念の区別を学ぶ程度で評価する。
- 参考スコア(独自算出の注目度): 22.409307683247967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional trajectories, or the 3D position and rotation of objects
over time, have been shown to encode key aspects of verb semantics (e.g., the
meanings of roll vs. slide). However, most multimodal models in NLP use 2D
images as representations of the world. Given the importance of 3D space in
formal models of verb semantics, we expect that these 2D images would result in
impoverished representations that fail to capture nuanced differences in
meaning. This paper tests this hypothesis directly in controlled experiments.
We train self-supervised image and trajectory encoders, and then evaluate them
on the extent to which each learns to differentiate verb concepts. Contrary to
our initial expectations, we find that 2D visual modalities perform similarly
well to 3D trajectories. While further work should be conducted on this
question, our initial findings challenge the conventional wisdom that richer
environment representations necessarily translate into better representation
learning for language.
- Abstract(参考訳): 3次元の軌跡(または時間の経過とともに物体の位置と回転)は動詞の意味論の重要な側面(例えばロール対スライドの意味)を符号化することが示されている。
しかし、NLPのほとんどのマルチモーダルモデルは、世界の表現として2D画像を使用している。
動詞意味論の形式モデルにおける3次元空間の重要性を考えると、これらの2次元画像は、意味の微妙な相違を捉えるのに失敗した表現をもたらすと期待する。
本稿では,この仮説を直接制御実験で検証する。
自己教師付き画像と軌道エンコーダを訓練し,それぞれが動詞概念の区別を学ぶ程度で評価する。
最初の期待とは対照的に、2dの視覚モダリティは3dの軌跡とよく似ています。
この問題についてさらなる研究を行う必要があるが、我々の最初の発見は、より豊かな環境表現が言語のためのより良い表現学習に必ず変換されるという従来の知恵に挑戦する。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Cycle-Consistent Generative Rendering for 2D-3D Modality Translation [21.962725416347855]
我々は、3Dオブジェクトのリアルなレンダリングを生成し、画像からリアルな3D形状を推測するモジュールを学習する。
生成ドメイン翻訳の手法を利用することで、弱い監視しか必要としない学習アルゴリズムを不適切なデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うことができるが、新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
論文 参考訳(メタデータ) (2020-11-16T15:23:03Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。