論文の概要: Analogical Reasoning for Visually Grounded Language Acquisition
- arxiv url: http://arxiv.org/abs/2007.11668v1
- Date: Wed, 22 Jul 2020 20:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:04:14.574751
- Title: Analogical Reasoning for Visually Grounded Language Acquisition
- Title(参考訳): 視覚的接地言語獲得のためのアナロジ的推論
- Authors: Bo Wu, Haoyu Qin, Alireza Zareian, Carl Vondrick, Shih-Fu Chang
- Abstract要約: 子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。
本稿では,この能力をAIにもたらし,視覚的基盤を持つ言語習得の課題を研究する。
類似推論のための新しい機構を付加したマルチモーダル変圧器モデルを提案する。
- 参考スコア(独自算出の注目度): 55.14286413675306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children acquire language subconsciously by observing the surrounding world
and listening to descriptions. They can discover the meaning of words even
without explicit language knowledge, and generalize to novel compositions
effortlessly. In this paper, we bring this ability to AI, by studying the task
of Visually grounded Language Acquisition (VLA). We propose a multimodal
transformer model augmented with a novel mechanism for analogical reasoning,
which approximates novel compositions by learning semantic mapping and
reasoning operations from previously seen compositions. Our proposed method,
Analogical Reasoning Transformer Networks (ARTNet), is trained on raw
multimedia data (video frames and transcripts), and after observing a set of
compositions such as "washing apple" or "cutting carrot", it can generalize and
recognize new compositions in new video frames, such as "washing carrot" or
"cutting apple". To this end, ARTNet refers to relevant instances in the
training data and uses their visual features and captions to establish
analogies with the query image. Then it chooses the suitable verb and noun to
create a new composition that describes the new image best. Extensive
experiments on an instructional video dataset demonstrate that the proposed
method achieves significantly better generalization capability and recognition
accuracy compared to state-of-the-art transformer models.
- Abstract(参考訳): 子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。
明示的な言語知識がなくても、言葉の意味を発見でき、新しい作曲に力強く一般化することができる。
本稿では,VLA(Visually Grounded Language Acquisition)の課題を研究することによって,この能力をAIに適用する。
本稿では,前述した構成から意味マッピングと推論操作を学習することにより,新しい構成を近似する類似推論機構を付加したマルチモーダルトランスフォーマモデルを提案する。
提案手法であるARTNet(Analogical Reasoning Transformer Networks)は、生のマルチメディアデータ(ビデオフレームと転写文)に基づいて訓練され、"washing apple" や "cutting carrot" などの一連の合成を観察した後、"washing carrot" や "cutting apple" などの新しいビデオフレームにおける新しい合成を一般化し、認識することができる。
この目的のためにartnetは、トレーニングデータの関連インスタンスを参照し、その視覚的特徴とキャプションを使用してクエリイメージの類似性を確立する。
そして、適切な動詞と名詞を選択して、新しいイメージを最もよく表現する新しい構成を作成する。
指導ビデオデータセットの大規模な実験により,提案手法は最先端のトランスフォーマーモデルと比較して,一般化能力と認識精度が著しく向上することを示した。
関連論文リスト
- Unveiling the Invisible: Captioning Videos with Metaphors [43.53477124719281]
本稿では,VL(Vision-Language)タスクについて紹介する。
この作業を容易にするために,705の動画と2115の人書きキャプションでデータセットを構築し,リリースする。
また,提案課題における SoTA ビデオ言語モデルに匹敵する性能を持つ低リソースなビデオメタファキャプションシステム GIT-LLaVA を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:32:44Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。