論文の概要: Visually grounded models of spoken language: A survey of datasets,
architectures and evaluation techniques
- arxiv url: http://arxiv.org/abs/2104.13225v1
- Date: Tue, 27 Apr 2021 14:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 17:07:13.705226
- Title: Visually grounded models of spoken language: A survey of datasets,
architectures and evaluation techniques
- Title(参考訳): 音声言語の視覚的接地モデル:データセット、アーキテクチャ、評価技術に関する調査
- Authors: Grzegorz Chrupa{\l}a
- Abstract要約: この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。
我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。
- 参考スコア(独自算出の注目度): 15.906959137350247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey provides an overview of the evolution of visually grounded models
of spoken language over the last 20 years. Such models are inspired by the
observation that when children pick up a language, they rely on a wide range of
indirect and noisy clues, crucially including signals from the visual modality
co-occurring with spoken utterances. Several fields have made important
contributions to this approach to modeling or mimicking the process of learning
language: Machine Learning, Natural Language and Speech Processing, Computer
Vision and Cognitive Science. The current paper brings together these
contributions in order to provide a useful introduction and overview for
practitioners in all these areas. We discuss the central research questions
addressed, the timeline of developments, and the datasets which enabled much of
this work. We then summarize the main modeling architectures and offer an
exhaustive overview of the evaluation metrics and analysis techniques.
- Abstract(参考訳): この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。
このようなモデルは、子供が言語を拾うとき、様々な間接的および騒がしい手がかりに依存しており、音声発話と共起する視覚モダリティからの信号を含んでいるという観察から着想を得ている。
機械学習、自然言語および音声処理、コンピュータビジョン、認知科学といった学習言語のプロセスをモデル化または模倣するこのアプローチに、いくつかの分野が重要な貢献をしている。
本稿では,これらすべての分野の実践者に対して有用な紹介と概要を提供するため,これらの貢献をまとめる。
我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。
次に、主要なモデリングアーキテクチャを要約し、評価メトリクスと分析テクニックを徹底的に概観する。
関連論文リスト
- VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。