論文の概要: Do Trajectories Encode Verb Meaning?
- arxiv url: http://arxiv.org/abs/2206.11953v1
- Date: Thu, 23 Jun 2022 19:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 07:31:21.515297
- Title: Do Trajectories Encode Verb Meaning?
- Title(参考訳): トラジェクトリは動詞の意味をコード化するか?
- Authors: Dylan Ebert, Chen Sun, Ellie Pavlick
- Abstract要約: 接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
- 参考スコア(独自算出の注目度): 22.409307683247967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional models learn representations of words from text, but are
criticized for their lack of grounding, or the linking of text to the
non-linguistic world. Grounded language models have had success in learning to
connect concrete categories like nouns and adjectives to the world via images
and videos, but can struggle to isolate the meaning of the verbs themselves
from the context in which they typically occur. In this paper, we investigate
the extent to which trajectories (i.e. the position and rotation of objects
over time) naturally encode verb semantics. We build a procedurally generated
agent-object-interaction dataset, obtain human annotations for the verbs that
occur in this data, and compare several methods for representation learning
given the trajectories. We find that trajectories correlate as-is with some
verbs (e.g., fall), and that additional abstraction via self-supervised
pretraining can further capture nuanced differences in verb meaning (e.g., roll
vs. slide).
- Abstract(参考訳): 分布モデルは、テキストから単語の表現を学習するが、基礎の欠如や非言語的世界へのテキストのリンクが批判される。
接地言語モデルは、画像やビデオを通して名詞や形容詞といった具体的なカテゴリーを世界に結びつけることに成功したが、動詞自体の意味を通常発生する文脈から分離するのに苦労することがある。
本稿では, 動詞意味論を自然にエンコードするトラジェクタ(つまり, 物体の位置と回転)の程度について検討する。
我々は、手続き的に生成されたエージェントオブジェクト-相互作用データセットを構築し、このデータで発生する動詞に対する人間のアノテーションを取得し、軌跡から学習を表現するためのいくつかの方法と比較する。
トラジェクトリは、いくつかの動詞(例えば、転倒)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンスな違い(例えば、ロール対スライド)をさらに捉えることができる。
関連論文リスト
- Skill Generalization with Verbs [20.90116318432194]
ロボットは人間が発する自然言語コマンドを理解できることが必須である。
本稿では,動詞を用いた新しいオブジェクトに対する操作スキルの一般化手法を提案する。
実ロボット上で2つの異なる対象カテゴリの新規インスタンスに適用した5つの動詞コマンドの実行に有効なトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-18T02:12:18Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Grounding Spatio-Temporal Language with Transformers [22.46291815734606]
具体的エージェントの行動トレースの意味を学習するために,新しい時間的言語タスクを導入する。
これは、ある記述が与えられた観測履歴と一致するかどうかを予測する関数を訓練することによって達成される。
このタスクにおけるアーキテクチャ一般化の役割を研究するために,マルチモーダルトランスフォーマーアーキテクチャを含むいくつかのモデルを訓練する。
論文 参考訳(メタデータ) (2021-06-16T15:28:22Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning [29.181547214915238]
埋め込み空間における単語の位置を変更することで、攻撃者が新しい単語や既存の単語の「意味」を制御できることが示される。
埋め込みに対する攻撃は、さまざまな下流タスクに影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-01-14T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。